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陈 光 欣 
毕业 于 清华 大 学 并 留 校 工作 ， 主 要 兴趣 
为 数据 分 析 与 数据 挖掘 。 
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内 容 提 要 


本 书 则 在 介绍 开源 的 Python 算法 库 和 数学 工具 包 SciPy。 近 年 来 ， 基 于 NumPy 和 SciPy 的 
完整 生态 系统 迅速 发 展 起 来 ， 并 在 天 文学 、 生 物 学 、 气 象 学 和 气候 科学 ， 以 及 材料 科学 等 多 个 
学 科 得 到 了 广泛 应 用 。 本 书 结合 大 量 代码 实例 ， 详 尽 展示 了 SciPy 的 强大 科学 计算 能 力 ， 包 括 
用 NumPy 和 SciPy 进行 分 位 数 标 准 化 ， 用 ndimage 实现 图 像 区 域 网 络 , 频率 与 快速 傅 里 叶 变 换 ， 
用 稀 玻 坐标 矩阵 实现 列 联 表 ，SciPy 中 的 线性 代数 ，SciPy 中 的 函数 优化 等 。 

本 书 适 合 Python 程序 员 以 及 计算 科学 领域 从 业 人 员 阅 读 参考 。 
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与 那 种 老式 刻板 的 结婚 礼服 不 同 ， 如 果 用 技术 术语 来 描述 的 话 ， 它 是 优雅 的 ， 宛 
如 通过 窗 容 几 行 代码 就 能 得 出 令 人 赞叹 的 结果 的 计算 机 算法 。 
一 一 格雷 姆 . 辛 浦 生 ,《 罗 萝 效 应 》 

欢迎 阅读 本 书 。 因 为 我 们 将 用 大 部 分 篇 幅 讨论 书 名 中 的 “SciPy”， 所 以 先 花 点 时 间 说 明 一 
下 “优雅 ”这 个 词 。 现 在 有 很 多 介绍 SciPy 库 的 手册 、 教 程 和 文档 网 站 ， 但 本 书 讲述 得 更 
加 深入 ， 它 不 但 会 教 你 如 何 编写 有 效 的 代码 ， 还 会 激励 你 将 代码 变 得 更 加 酷 炫 ! 
在 《 罗 落 效应 》( 一 本 妙趣 横生 的 小 说 ， 学 完 本 书后 ， 你 可 以 阅读 一 下 它 的 前 作 《 罗 蔚 计 
划 》) 中 ， 格 雷 姆 . 辛 浦 生 颠覆 了 “优雅 ”这 个 词 的 传统 含义 。 多 数 人 会 用 这 个 词 来 形容 
某 物 在 视觉 上 的 简单 、 时 暑 和 优美 ， 比 如 第 一 代 iPhone。 但 格雷 姆 . 辛 浦 生 著 作 中 的 主 
人 公 唐 . 蒂 尔 曼 却 用 计算 机 算法 来 定义 优雅 。 读 完 本 书后 ， 和 希望 你 能 确切 地 理解 他 的 意 
思 ， 因 为 你 将 在 本 书 中 阅读 或 编写 一 段 优雅 的 代码 ， 并 在 它 美 妙 高 雅 的 光辉 下 感受 内 心 的 
平静 。 
一 段 良 好 的 代码 在 感觉 上 就 是 正确 的 。 当 查看 这 种 代码 时 ， 它 的 意图 是 明确 的 ， 形 式 是 简 
洁 的 (但 不 至 于 星 汲 )， 而 且 能 高 效 地 完成 当前 工作 。 对 于 作者 而 言 ， 分 析 优 雅 代码 的 乐 
趣 在 于 找 出 其 中 隐藏 的 知识 ， 以 及 由 其 激发 出 的 解决 新 编程 问题 时 的 创造 性 。 
具有 讽刺 意味 的 是 ， 创 造 性 还 会 引诱 我 们 为 了 炫耀 自己 的 睿智 而 编写 出 难以 理解 的 代码 ， 
而 承受 这 种 代价 的 是 代码 阅读 者 。PEP 8 (“Python 编码 规范 >) 和 PEP 20 (“Python 之 禅 ”) 
提醒 我 们 ， 阅 读 代 码 要 比 编写 代码 频繁 得 多 ， 因 此 可 读 性 最 重要 。 
优雅 代码 的 简洁 性 来 自 抽 象 和 正确 使 用 函数 ， 而 非 大 量 的 函数 艇 套 调 用 。 可 能 需要 一 两 分 
钟 来 领会 这 种 代码 ， 但 最 终 肯 定 有 一 个 屏 然 大 悟 的 时 刻 。 一 旦 搞 清 楚 代 码 的 各 个 组 成 部 
分 ， 它 的 正确 性 就 显而易见 了 。 要 想 提 高 代码 的 可 读 性 ， 可 以 使 用 清晰 明确 的 变量 和 国 数 
名 称 ， 并 精心 编写 注释 ， 注 释 不 仅 要 描述 代码 ， 还 应 该 解释 代码 。 
软件 工程 师 J. Bradford Hipps 最 近 在 《纽约 时 报 》 上 发 表 了 一 篇 文章 ， 他 认为 ,“ 要 想 写 出 
更 好 的 代码 ， 就 应 该 阅读 一 下 弗吉尼亚 . 伍 尔 英 的 作品 ?”。 文 章 选 段 如 下 ; 



















































































在 实践 中 ， 软 件 开发 更 多 的 时 候 是 一 种 创造 性 活动 ， 绝 不 是 机 械 的 算法 。 
开发 人 员 站 在 源 代码 编辑 器 前 ， 就 像 是 作家 面 对 着 空白 的 稿 纸 。…… 他 们 都 对 特 
规 踏 矩 的 做 事 方式 表现 出 理所当然 的 焦躁 ， 并 从 内 心 深 处 渴望 打破 常规 。 当 完成 
一 段 程序 或 一 页 作品 时 ， 它 们 的 质量 评判 标准 在 很 大 程度 上 是 一 样 的 : 优雅 、 简 
洁 、 内 聚 ， 没 有 一 点 故弄玄虚 的 东西 ， 其 至 堪 称 漂亮 。 
这 也 是 本 书 所 持 的 立场 。 
至 此 ， 本 书 英文 版 书 名 中 的 “优雅 ”(elegant) 讨论 完毕 ， 接 下 来 将 介绍 其 中 的 “SciPy”。 
根据 上 下 文 ,“SciPy” 可 以 是 一 个 软件 库 、 一 种 生态 系统 或 一 个 社区 。SciPy 如 此 优秀 的 
部 分 原因 就 在 于 它 有 特别 出 色 的 在 线 文档 和 教程 ， 这 使 得 我 们 根本 不 需要 其 他 参考 书 。 但 
是 ， 我 们 希望 本 书 能 够 帮助 你 用 SciPy 编写 出 最 好 的 代码 。 
我 们 选择 的 代码 集中 体现 了 NumPy、SciPy 和 相关 库 中 的 高 级 功能 ， 并 演示 了 这 些 功 能 聪 
明 而 又 优雅 的 使 用 方法 。 初 学 者 可 以 学 会 如 何 通 过 优美 的 代码 应 用 这 些 库 来 解决 实际 问 
题 。 我 们 也 将 用 真实 的 科学 数据 使 书 中 的 示例 更 加 生动 有 趣 。 


像 SciPy 本 身 一 样 ， 我 们 也 希望 本 书 是 由 社区 驱动 的 。 书 中 的 很 多 示例 都 取 自 Python 科学 
生态 系统 中 的 实际 代码 ， 它 们 生动 地 体现 了 我 们 描绘 的 优雅 代码 的 准则 。 


Ce :二 
目标 读者 
本 书 旨 在 将 你 的 Python 水 平 提高 到 一 个 新 的 层次 。 你 将 通过 实例 用 最 棒 的 代码 来 学 习 SciPy。 
在 开始 学 习 之 前 ， 你 至 少 应 该 了 解 Python， 知 道 变量 、 函 数 、 循 环 和 一 点 NumPy 的 知识 。 
或 许 你 已 经 通过 一 些 高 级 读物 提高 了 Python 技能 , 比如 《流畅 的 Python》'。 如 果 这 不 符合 
你 的 情况 ， 那 么 在 继续 学 习 本 书 前 ， 你 应 该 先 学 习 一 下 Python 的 入 门 教程 ， 比 如 Software 
Carpentry 的 网 站 。 
或 许 你 还 搞 不 清 SciPy stack 到 底 是 一 个 库 还 是 IHOP 松 饼 屋 菜 单 上 的 一 道 菜 ， 也 不 确定 什 
么 是 SciPy 最 佳 实践 。 或 许 你 是 一 位 科研 人 员 ， 在 网 上 读 过 一 些 Python 教程 ， 从 另 一 个 实 
验 室 或 自己 实验 室 的 前 成 员 那 里 下 载 了 一 些 分 析 脚 本 ， 头 昏 脑 胀 地 乱 改 了 一 通 。 可 能 你 觉 
得 自己 正在 学 习 SciPy 编程 的 路 上 孤军 奋战 ， 但 其 实 并 不 是 。 
在 学 习 过 程 中 ， 我 们 会 教 你 如 何 将 互联 网 作为 参考 ， 并 介绍 一 些 邮件 列表 、 库 和 相关 会 
议 ， 在 那里 你 会 遇 到 一 些 志 同道 合 的 科研 人 员 ， 他 们 已 经 在 这 条 路 上 先行 了 一 步 。 
虽然 这 本 书 你 可 能 只 会 阅读 一 次 ， 但 也 许 会 多 次 借 此 寻求 灵感 和 启发 (也 可 能 欣赏 一 些 优 
雅 的 代码 片段 )。 


为 什么 使 用 SciPy 


NumPy 和 SciPy 共同 组 成 了 Python 科学 应 用 生态 系统 的 核心 。SciPy 软件 库 实现 了 很 多 用 
于 科学 数据 处 理 的 函数 ， 比 如 用 于 统计 学 、 信 号 处 理 、 图 像 处 理 和 函数 优化 。SciPy 是 建 














































































































注 1: 参见 图 灵 社 区 : http://www.ituring.com.cn/book/1564。 一 一 编者 注 
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立 在 NumPy 之 上 的 ，NumPy 是 Python 中 用 于 数值 型 数组 计算 的 库 。 在 过 去 的 几 年 中 ， 基 











于 NumPy 和 SciPy， 一 个 包括 应 用 和 库 文 件 的 完整 生态 系统 迅速 发 展 起 来 ， 并 在 天 文学 、 
生物 学 、 气 象 学 和 气候 科学 ， 以 及 材料 科学 等 多 个 学 科 得 到 了 广泛 应 用 。 

这 种 发 展 方兴未艾 。2014 年 ，Thomas Robitaille 和 Chris Beaumont 整理 了 Python 在 天 文学 
领域 不 断 增 长 的 应 用 。 这 是 我 们 找到 的 2016 年 下 半年 的 最 新 图 形 结果 。 
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很 明显 ，SciPy 及 其 相关 的 库 在 未 来 几 年 将 支持 大 量 科学 数据 分 析 任务 。 


再 举 个 例子 ，Software Carpentry 是 一 个 专门 向 科研 人 员 传 授 计算 技能 的 组 织 ， 其 中 最 常用 
的 语言 就 是 Python， 现 在 相关 课程 已 经 供不应求 。 





什么 是 SciPy 生 态 系统 





SciPy ( 读 作 Sigh Pie ) 是 一 个 基于 Python 的 用 于 数学 、 科 学 和 工程 学 的 开源 软 


件 生态 系统 。 


一 一 http://www.Scipy.org 


SciPy 生态 系统 是 Python 包 的 一 个 松散 集合 。 本 书 将 介绍 以 下 主要 内 容 。 

。 NumPy 是 Python 科学 计算 的 基础 。 它 提供 了 高 效 的 数值 数组 ， 并 广泛 支持 数值 计算 ， 
其 中 包括 线性 代数 、 随 机 数 和 傅 里 叶 变 换 。Numpy 的 杀手 级 特性 是 “NN 维 数 组 ”， 又 称 
ndarray。 这 些 数据 结构 可 以 高 效 地 存储 数值 型 数据 ， 并 能 定义 任何 维度 的 网 格 ( 稍 后 将 


做 更 多 介绍 )。 





。 SciPy 库 是 一 个 高 效 的 数值 算法 集合 ， 用 于 信号 处 理 、 集 成 、 优 化 和 统计 学 等 领域 。 其 









































中 的 程序 都 使 用 了 用 户 友好 型 界 画 








i 进行 包装 。 
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。 Matplotlib 是 一 个 功能 强大 的 二 维 (和 基本 的 三 维 ) 绘图 包 。 它 的 名 称 来 自 于 受 Matlab 
启发 而 发 明 的 语法 。 

。 IPython 是 一 个 交互 式 的 Python 界面 ， 它 允许 你 快速 地 与 数据 和 测试 方案 交互 。 

。 Jupyter 笔记 本 在 浏览 器 中 运行 ， 可 以 构建 样式 丰富 的 文档 ， 将 代码 、 文 本 、 数 学 表达 
式 和 可 交互 部 件 组 合 在 一 起 。 "实际 上 ， 为 了 生成 本 书 ， 需 要 将 文本 转换 为 Jupyter 笔记 
本 并 运行 (这 样 我 们 就 可 以 知道 所 有 示例 都 能 够 正确 运行 )。Jupyter 最 初 是 作为 IPython 
的 扩展 而 开发 的 ， 但 现在 可 以 支持 多 种 语言 ， 其 中 包括 Cython、Julia、R、Octave、 
Bash、Perl 和 Ruby。 

。 pandas 通过 一 个 便于 使 用 的 软件 包 提供 了 快速 、 列 式 的 数据 结构 。 它 特别 适合 处 理 有 
标记 的 数据 集 ， 如 表格 和 关系 数据 库 ， 还 适合 管理 时 间 序 列 数 据 和 滑动 窗口 。pandas 中 
还 有 很 多 便利 的 数据 分 析 工 具 ， 可 以 解析 、 清 洗 、 聚 合 和 绘制 数据 。 

。 Sscikit-learn 为 机 器 学 习 算 法 提供 了 统一 的 接口 。 

。 scikit-image 提供 了 能 与 SciPy 生态 系统 其 他 部 分 完美 集成 的 图 像 分 析 工 具 。 

很 多 Python 软件 包 组 成 了 SciPy 生态 系统 的 其 他 部 分 ， 本 书 也 会 涉及 其 中 一 些 。 虽 然 本 书 

重点 介绍 NumPy 和 SciPy， 但 正 是 因为 存在 大 量 与 它们 紧密 关联 的 软件 包 ，Python 才 成 为 

了 科学 计算 的 强大 工具 。 


天 翻 地 覆 : 从 Python 2 到 Python 3 


在 使 用 Python 的 过 程 中 ， 你 应 该 对 哪个 Python 版 本 更 好 的 争论 有 所 耳闻 。 或 许 你 对 此 非 
常 证 异 ， 难 道 不 是 最 新 版 本 更 好 吗 ? 〈 先 剧 透 一 下 : 确实 是 最 新 版 本 更 好 。) 


2008 年 末 ，Python 核心 开发 团队 发 布 了 Python 3， 对 这 种 语言 进行 了 一 次 重大 更 新 ， 主 要 
改进 包括 更 好 的 Unicode (国际 标准 ) 文本 处 理 、 类 型 的 一 致 性 以 及 流 式 数据 处 理 等 。 正 
如 Douglas Adams 对 字 宙 初创 的 风趣 评论 一 样 ",“ 这 令 很 多 人 勃然 大 把， 被 普遍 认为 是 一 
种 倒退 ”。 这 是 因为 ， 如 果 不 进行 一 些 修 改 ，Python 2.6 或 Python 2.7 的 代码 一 般 不 能 由 
Python 3 直接 解释 (尽管 这 些 改 动 一 般 没有 什么 破坏 性 )。 

向 前 发 展 与 向 后 兼容 总 是 要 进行 一 番 角 力 。 对 于 这 个 问题 ，Python 核心 团队 决定 做 一 个 彻 
底 的 改变 ， 消 除 Python (特别 是 底层 C 语言 API) 中 的 不 一 致 性 ， 从 而 使 Python 成 为 一 
门 21 世纪 的 语言 (Python 1.0 发 布 于 1994 年 ， 距 今 已 有 20 余年 ， 在 技术 界 已 经 是 相当 长 
的 时 间 ) 。 

以 下 是 Python 3 中 的 一 处 改进 。 


print "Hello WortLd!"  # Python 2 打印 语句 
print("Hello World!") # Python 3 打印 函数 


为 什么 非 要 不 嫌 麻 烦 地 加 上 一 对 括号 呢 ? 是 的 ， 括 号 确实 比 以 前 麻烦 ， 但 如 果 你 想 要 输出 
到 另 一 个 流 中 ， 如 常用 于 存放 调试 信息 的 标准 错误 流 ， 该 怎么 办 呢 ? 
















































































































































































注 2: 参见 Fernando Perez 的 文章 “ “Literate computing”and computational reproducibility: IPython in the age 
of data-driven journalism  。 
注 3: ADAMS D. The Hitchhiker’s guide to the galaxy [M]. London: Pan Books, 1979. 
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print >>sys.stderr, "fatal error" # Python 2 
print("fatal error", file=sys.stderr) # Python 3 


此 时 这 种 改动 看 起 来 就 很 有 价值 。Python 2 中 的 代码 到 底 表示 什么 意思 呢 ? 我 们 确实 不 大 
明白 。 
Python 3 的 另 一 项 改进 是 将 整数 除法 修改 为 符合 大 多 数 人 习惯 的 形式 。( 注 意 : >>> 表示 我 
们 正在 Python 交互 式 环境 中 进行 输入 。) 

# Python 2 

>>> 5 / 2 

2 

# Python 3 

>>> 5 / 2 

2.5 
2015 年 ，Python 3.5 引入 的 新 矩阵 乘法 操作 符 @ 也 非常 令 人 激动 ， 你 将 在 第 5 章 和 第 6 章 
中 看 到 这 个 操作 符 的 实际 应 用 。 
Python 3 中 的 最 大 改进 可 能 就 是 对 Unicode 的 支持 ，Unicode 是 一 种 文本 编码 方式 ， 它 不 但 
包括 英文 字母 表 ， 还 包括 世界 上 所 有 的 字母 表 。Python 2 允许 你 定义 一 个 Unicode 字符 串 ， 
如 下 所 示 。 


beta = u"B" 


但 在 Python 3 中 ， 一 切 都 是 Unicode。 





B = 0.5 
print(2 * B) 


1.0 
Python 核心 团队 做 出 了 正确 的 决策 ， 在 Python 代码 中 一 视 同仁 地 支持 所 有 语言 的 字符 。 如 
今 这 个 决策 看 起 来 尤其 英明 ， 因 为 大 多 数 新 程序 员 来 自 于 非 英语 国家 。 考 虑 到 互 操作 性 ， 
我 们 还 是 建议 在 多 数 代 码 中 使 用 英文 字符 ， 但 这 种 能 力 迟 早 会 派 上 用 场 ， 比 如 在 包含 大 量 
数学 公式 的 Jupyter 笔记 本 中 。 











在 IPython 终端 或 Jupyter 笔记 本 中 ， 先 输入 一 个 LaTeX 符号 名 称 ， 紧 接着 
按 Tab 键 ， 就 可 以 将 其 转换 为 Unicode。 例 如 ，\bet<TAB> 可 以 变 为 B 。 











Python 3 的 更 新 也 破坏 了 很 多 现 有 的 2x 版 代码 ， 一 些 代码 比 以 前 运行 得 更 慢 。 尽 管 会 
这 样 的 问题 ， 我 们 还 是 建议 所 有 人 都 尽快 升级 到 Python 3 (Python 2x 的 维护 期 到 2020 年 
就 结束 了 ) ， 因 为 随 着 3x 系列 的 逐渐 成 熟 ， 大 多 数 问题 已 经 被 解决 。 实 际 上 ， 本 书 中 的 很 
多 新 语言 特性 就 来 自 于 Python 3。 

本 书 使 用 的 是 Python 3.6。 


如 果 想 要 阅读 更 多 相关 内 容 ， 可 以 查看 Ed Schofield 在 Python-Future 网 站 上 提供 的 资源 ， 
以 及 Nick Coghlan 关于 这 种 版 本 转换 的 详细 指南 。 














SciPy 生 态 系 统 和 社区 


SciPy 是 一 个 功能 丰富 的 主流 库 。 与 NumPy 一 样 ， 它 也 是 Python 的 杀手 级 应 用 之 一 。 在 
SciPy 功能 的 基础 之 上 ， 衍 生 了 大 量 相关 库 ， 本 书 中 涉及 了 其 中 很 多 库 。 
这 些 库 的 作者 和 用 户 在 世界 各 地 的 很 多 活动 和 会 议 上 聚集 ， 包 括 一 年 一 度 的 美国 奥斯汀 
SciPy 大 会 、EuroSciPy、SciPy India、PyData， 等 等 。 我 们 强烈 建议 你 参加 其 中 一 项 活动 ， 
与 Python 世界 中 最 优秀 的 科学 软件 的 开发 者 会 面 。 如 果 你 无 法 亲自 前 往 ， 或 者 只 想 感 受 一 
下 这 些 会 议 的 气氛 ， 很 多 人 会 在 网 络 上 发 布 他 们 的 演讲 ， 你 可 以 看 一 下 。 


免费 的 开源 软件 

SciPy 社区 支持 开源 软件 开发 ， 几 乎 所 有 SciPy 库 的 源 代码 都 可 以 免费 获取 ,任何 人 都 可 
以 阅读 、 编 辑 和 重用 这 些 源 代码 。 

如 果 希 望 别 人 使 用 你 的 代码 ， 最 好 的 一 种 实现 方式 就 是 让 代码 免费 而 且 公 开 。 如 果 使 用 了 
封闭 源码 的 软件 ， 但 它 不 能 完全 满足 你 的 需求 ， 那 只 能 说 你 运气 不 佳 。 你 可 以 给 开发 者 发 
邮件 ， 请 求 他 们 添加 新 的 功能 (通常 无 济 于 事 )， 也 可 以 自己 开发 新 的 软件 。 但 如 果 代 码 
是 开源 的 ， 那么 你 就 可 以 轻松 地 使 用 从 本 书 中 学 到 的 技能 来 添加 或 修改 软件 的 功能 。 


同样 ， 如 果 你 发 现 了 一 个 软件 的 bug， 那 么 对 用 户 和 开发 者 来 说 ， 能 够 接触 到 源 代 码 可 以 
使 事情 变 得 更 加 容易 。 即 使 不 能 完全 理解 代码 ， 通 常 也 可 以 更 加 深入 地 诊断 问题 ， 并 帮助 
开发 者 进行 修复 ， 这 对 所 有 人 来 说 都 是 很 好 的 学 习 经 历 。 

开放 的 源码 ， 开 放 的 科学 

在 科学 软件 开发 中 ， 上 述 场景 都 极其 常见 ， 而 且 非常 重要 : 科学 软件 一 般 都 是 建立 在 前 人 
的 工作 基础 之 上 ， 或 者 是 对 其 做 了 一 些 有 趣 的 修改 。 此 外 ， 因 为 科学 成 果 发 布 和 改进 的 节 
奏 非 常 快 ， 很 多 代码 在 发 布 之 前 都 没有 经 过 充分 的 测试 ， 所 以 科学 软件 或 多 或 少 都 有 bug。 


代码 开源 的 另 一 个 重要 原因 是 为 了 促进 可 重复 性 研究 。 许 多 人 都 有 过 这 种 经 历 : 读 了 一 篇 
非常 精彩 的 论文 ， 然 后 下 载 代码 并 在 自己 的 数据 上 进行 试验 ， 结 果 却 发 现 可 执行 文件 不 是 
为 自己 的 操作 系统 编译 的 ， 程 序 无 法 运行 ， 程 序 有 bug， 某 个 功能 缺失 ， 或 者 产生 了 出 人 
意料 的 结果 。 通 过 将 科学 软件 开源 ， 不 但 可 以 提高 软件 质量 ， 还 可 以 使 科学 发 现 过 程 一 目 
了 然 ， 比 如 假设 是 如 何 做 出 的 ， 哪 些 地 方 有 硬 编码 ? 开源 可 以 解决 很 多 类 似 的 问题 。 开 源 
还 允许 科研 人 员 基 于 同行 的 代码 继续 开发 ， 培 养 新 的 协作 关系 ， 加 速 科学 研究 的 进程 。 
开放 源码 许可 证 

如 果 想 让 别人 使 用 你 的 代码 ， 你 必须 选择 一 种 开源 许可 证 。 如 果 没 有 开源 许可 证 ， 那 么 代 
码 默 认 就 是 封闭 的 。 即 使 你 公开 了 代码 (比如 将 代码 放 在 一 个 公开 的 GitHub 仓库 中 )， 没 
有 软件 许可 证 的 话 ， 任 何人 也 都 不 能 使 用 、 修 改 或 重新 发 布 你 的 代码 。 

在 众多 许可 证 选项 中 进行 选择 时 ， 你 必须 先 确定 允许 别人 用 你 的 代码 做 什么 。 你 想 让 别人 
通过 销售 你 的 代码 或 使 用 了 你 的 代码 的 软件 来 获取 利 镁 吗 ? 你 想 限制 代码 仅 供 免费 软件 使 
用 吗 ? 


免费 的 开源 软件 许可 证 有 两 大 类 : 







































































































































































。 宽松 式 (permissive) 许可 证 
。 copy-left 许可 证 


宽松 式 许可 证 表明 你 授予 任何 人 以 任何 方式 使 用 、 编 辑 和 重新 发 布 你 的 代码 的 权利 ， 包 括 
将 你 的 代码 作为 商业 软件 的 一 部 分 。 常 见 的 这 类 许可 证 包括 MIT 许可 证 和 BSD 许可 证 。 
SciPy 社区 采用 的 是 新 BSD (又 称 “ 修 正 BSD” 或 “三 条 款 BSD”) 许可 证 。 使 用 这 种 许 
可 证 意味 着 接受 各 种 人 员 贡 献 的 代码 ， 包 括 工业 界 和 创业 公司 的 代码 。 


copy-left 许可 证 也 允许 他 人 使 用 、 编 辑 和 重新 发 布 你 的 代码 。 但 是 ， 这 种 许可 证 还 规定 衍 
生 代 码 必须 用 copy-left 许可 证 发 布 。 通 过 这 种 方式 ，copy-left 许可 证 对 代码 的 用 途 进行 了 
限制 。 


最 常见 的 copy-left 许可 证 是 GPL (GNU Public License)。 使 用 copy-left 许可 证 的 最 大 问题 
是 ， 经 常会 使 那些 来 自 于 私人 部 门 的 六 在 用 户 和 贡献 者 无 法 使 用 你 的 代码 ， 甚 至 包括 未 来 
的 你 ! 这 会 严重 削减 你 的 用 户 基础 ， 进 而 影响 软件 取得 的 成 就 。 在 科学 界 ， 这 就 意味 着 更 
少 的 引用 数 。 
如 果 想 在 许可 证 的 选择 方面 获得 更 多 帮助 ， 可 以 看 一 下 Choose a License 这 个 网 站 。 如 
果 从 科研 角度 考虑 ， 我 们 推荐 你 看 一 下 Jake VanderPlas 的 博文 “The Whys and Hows of 
Licensing Scientific Code" ， 他 是 华盛顿 大 学 自然 科学 研究 主任 ， 不 折 不 扣 的 SciPy 超级 明 
星 。 实 际 上 ，Jake 的 这 段 话 非常 清楚 地 解释 了 软件 许可 制度 ; 
本 如 果 你 想 从 这 篇 文章 中 总 结 出 3 条 信息 ， 那 么 就 是 以 下 3 条 。 


(1) 一 定 要 对 代码 进行 许可 。 未 许可 的 代码 是 封闭 代码 ， 因 此 任何 开放 许可 都 优 
于 没有 许可 ( 见 第 2 条 )。 
(2) 一 定 要 使 用 GPL 兼容 的 许可 证 。GPL 兼容 许可 证 可 以 确保 你 的 代码 具有 广泛 
的 兼容 性 ， 这 种 许可 证 包括 GPL、 新 BSD 以 及 其 他 一 些许 可 证 ( 见 第 3 条 )。 
(3) 一 定 要 使 用 宽松 式 的 、BSD 风格 的 许可 证 。 相 比 于 GPL 或 LGPL 这 样 的 
copy-left 许可 证 ,更 应 该 使 用 新 BSD 或 MIT 这 样 的 宽松 式 许可 证 。 
本 书 中 的 所 有 代码 都 具有 三 条 款 BSD 许可 证 。 其 中 包括 来 自 于 他 人 的 源 代码 片段 ， 这 些 
代码 通常 具有 某 种 宽松 式 开放 许可 (尽管 不 一 定 是 BSD ) 。 
对 于 你 自己 的 代码 ， 我 们 建议 你 遵循 社区 的 做 法 。 例 如 ，Python 科学 应 用 中 使 用 的 是 三 条 
款 BSD 许可 证 ， 但 R 语言 社区 采用 的 则 是 GPL 许可 证 。 


GitHub: 实现 社交 化 编码 
前 面 讨论 过 了 使 用 开源 许可 证 发 布 源 代码 ， 这 样 做 很 可 能 会 促进 大 量 人 员 下 载 并 使 用 你 的 
代码 ， 修 改 其 bug 并 添加 新 的 功能 。 你 应 该 将 代码 放 在 何 处 ， 以 便 人 们 找到 它 呢 ? bug 修 
改 和 新 功能 如 何 补充 到 代码 中 呢 ? 如何 跟 踪 这 些 问 题 和 变更 呢 ?” 可 以 想象 ， 如 果 没 有 有 效 
的 管理 和 手段， 这些 问 题 很 快 就 会 失控 。 


答案 就 是 : GitHub。 
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GitHub 是 一 个 用 于 托管 、 分 享 和 开发 代码 的 网 站 ， 它 是 建立 在 版 本 控制 软件 Git 基础 之 上 
的 。 一 些 非常 出 色 的 资源 可 以 供 你 学 习 如 何 使 用 GitHub， 比 如 Peter Bell 和 Brent Beer 合 
著 的 Introducing GitHub。 因 为 SciPy 生态 系统 中 的 绝 大 多 数 项 目 都 托管 在 GitHub 上 ， 所 
以 学 习 一 下 它 的 使 用 方法 是 很 有 必要 的 。 


GitHub 对 开源 代码 的 贡献 起 到 了 巨大 的 推进 作用 ， 它 允许 用 户 发 布 代 码 并 自由 协作 。 任 
何人 都 可 以 复制 一 份 代码 〈 称 为 fork) 并 修改 其 核心 内 容 ， 然 后 创建 一 个 pull request 将 修 
改 贡 献 给 原来 的 代码 。GitHub 中 有 一 些 非常 贴心 的 特性 ， 比 如 管理 问题 和 变更 请 求 ， 以 
及 确定 谁 可 以 直接 修改 你 的 代码 。 你 其 至 可 以 跟踪 修改 、 贡 献 者 和 其 他 有 趣 的 统计 信息 。 
GitHub 还 有 很 多 其 他 精彩 特性 ， 但 我 们 要 将 大 部 分 留 给 你 自己 去 发 现 ， 本 书后 面 会 涉及 其 
中 一 些 特 性 。 从 本 质 上 讲 ，GitHub 使 软件 开发 变 得 更 加 大 众 化 〈 见 图 P-1) ， 大 大 降低 了 入 
门 的 门槛 。 
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P-1: GitHub 的 影响 (经 作者 Jake VanderPlas 授权 使 用 ) 


为 SciPy 生 态 系统 贡献 你 的 力量 

如 果 积 累 了 更 多 SciPy 经 验 并 开始 用 它 进 行 科学 研究 ， 你 可 能 会 发 现 某 个 包 缺 少 你 需要 的 
功能 ， 也 可 能 认为 自己 的 程序 更 高 效 ， 还 可 能 发 现 某 个 程序 的 bug。 如 果 你 达到 了 这 个 程 
度 ， 那 么 就 可 以 开始 为 SciPy 生态 系统 贡献 力量 了 。 


我 们 强烈 建议 你 做 这 件 事 。 社 区 能 够 生存 发 展 ， 就 是 因为 人 们 乐于 分 享 自己 的 代码 和 改进 
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xvi | 前 言 


现 有 的 代码 。 聚 沙 成 塔 ， 集 腋 成 形 。 除 去 无 私 的 贡献 精神 外 ， 贡 献 代 码 还 能 获得 一 些 非 常 
实际 的 个 人 利益 。 积 极地 参与 社区 可 以 让 你 成 为 一 名 更 加 优秀 的 程序 员 ， 你 贡献 的 任何 代 
码 都 会 被 其 他 人 审查 和 反馈 意见 。 你 还 可 以 学 会 如 何 使 用 Git 和 GitHub， 它 们 是 维护 和 分 
享 代码 的 非常 有 用 的 工具 。 你 甚至 还 会 发 现 ， 与 SciPy 社区 互动 会 为 你 构建 一 个 更 加 广阔 
的 科研 网 络 ， 并 提供 意 想 不 到 的 工作 机 会 。 


我 们 希望 你 不 只 是 一 位 SciPy 用 户 。 你 加 入 的 是 一 个 社区 ， 你 的 工作 会 为 它 锦上添花 ， 使 
所 有 从 事 科学 编程 的 人 员 受 益 菲 浅 。 


Python 中 的 一 些 恶搞 


如 果 你 担心 SciPy 社区 对 新 手 来 说 是 一 个 充满 压力 的 地 方 ， 那 大 可 不 必 ， 因 为 这 个 社区 是 
由 与 你 非常 相似 的 人 员 组 成 的 ， 都 是 一 些 科研 工作 者 ， 他 们 通常 具有 很 强 的 幽默 感 。 


在 Python 世界 中 ， 你 肯定 会 发 现 一 些 与 巨 蟒 喜 剧团 (Monty Python) 有 关 的 醒 。Airspeed 
Velocity 是 一 个 测量 软件 速度 的 包 (后 面 会 做 更 多 介绍 ), 其 中 就 引用 了 《 巨 蟒 与 圣杯 》 中 
的 一 句 台词 :“ 一 只 没有 衔 任何 东西 的 燕子 的 飞行 速度 是 多 少 ? ” 


另 一 个 有 着 搞笑 名 称 的 包 是 Sux， 它 允许 你 在 Python 3 环境 中 使 用 Python 2 的 包 。 这 是 使 
用 新 西 兰 口音 对 six 包 的 恶搞 ， 这 个 包 人 允许 你 在 Python 2 中 使 用 Python 3 的 语法 。 转 换 到 
Python 3 后 ，Sux 语法 可 以 让 你 在 使 用 那些 仅 用 于 Python 2 的 包 时 不 那么 诅 形 。 


import sux 
p = sux.to_use('my_py2_package') 


一 般 来 说 ，Python 库 的 名 字 都 起 得 十 分 绚丽 ， 希 望 你 能 想 出 一 些 这 样 的 名 字 ! 


获取 帮助 

当 遇 到 困难 时 ， 我 们 做 的 第 一 件 事 就 是 到 网 上 搜索 自己 要 完成 的 任务 或 收 到 的 出 错 信息 。 
这 就 要 用 到 Stack Overflow， 一 个 关于 编程 的 非常 出 色 的 问答 网 站 。 如 果 没 有 立刻 找到 所 
需 的 内 容 ， 可 以 试 着 扩充 一 下 搜索 条 件 ， 找 到 与 你 有 同样 问题 的 人 。 


有 时 你 可 能 是 第 一 个 过 到 这 种 问题 的 人 (尤其 是 使 用 一 个 新 包 时 )， 这 时 也 不 要 惊慌 失 
措 ! 正如 前 面 所 说 ，SciPy 社区 用 户 是 一 帮 非 常 友好 的 家 伙 ， 他 们 分 布 在 互联 网 的 各 个 地 
方 。 接 下 来 你 应 该 做 的 就 是 搜索 <library name> mailing list， 找 到 相应 的 邮件 列表 来 
寻求 帮助 。 库 的 作者 和 高 级 用 户 经 常 阅 读 邮 件 列表 ， 而 且 对 新 人 非常 热情 。 注 意 ， 需 要 先 
订阅 邮件 列表 ， 然 后 才能 发 邮件 ， 这 是 一 种 基本 礼仪 。 否 则 ， 在 允许 你 的 邮件 出 现在 邮件 
列表 前 ， 经 常 需要 有 人 手动 检查 它 是 否 为 一 封 垃 圾 邮件 。 有 了 时 加 入 一 个 邮件 列表 会 令 人 厌 
烦 ， 但 我 们 强烈 推荐 你 使 用 它 ， 它 绝对 是 一 个 学 习 的 好 地 方 ! 












































































































































安装 Python 
本 书 假设 你 安装 了 Python 3.6 (或 更 新 的 版 本 ) 和 本 书 需要 的 所 有 SciPy 包 。 在 随 书 数据 


注 4: 中 文 意思 是 “飞行 速度 ”。 一 一 编者 注 



































中 ， 我 们 还 包括 了 一 个 environment.yml 文件 ， 并 在 其 中 列 出 了 所 有 需要 的 包 及 其 版 本 。 获 
得 全 部 所 需 包 的 最 简单 方式 是 先 安 装 conda， 它 是 一 个 管理 Python 环境 的 工具 ， 然 后 再 将 
environment.yml 文件 传 给 conda， 以 便 一 次 性 安装 所 有 包 的 正确 版 本 。 


conda env create --name elegant-scipy -f path/to/environment.yml 
source activate elegant-scipy 





访问 本 
































区 的 GitHub 仓库 以 获取 更 多 细节。 





获取 随 书 资料 


本 书 的 所 有 代码 和 数据 都 可 以 在 GitHub 仓库 (https://github.com/elegant-scipy/elegant-scipy) 





中 找到 。 





在 该 仓库 的 README 文件 中 ， 你 会 发 现 根 据 markdown 源 文件 建立 Jupyter 笔记 





本 的 相关 指导 。 建 立 了 Jupyter 笔记 本 之 后 ， 你 就 可 以 使 用 仓库 中 的 数据 交互 式 地 运行 


它们 。 


我 们 开始 吧 


本 书 综合 了 SciPy 社区 提供 的 一 些 最 优雅 的 代码 。 在 学 习 的 过 程 中 ， 我 们 还 会 介绍 SciPy 
社区 解决 的 一 些 实际 科学 问题 。 本 书 还 会 带 你 了 解 一 个 期 待 你 加 入 其 中 的 热情 的 、 协 作 式 
的 科学 编程 社区 的 面貌 。 


欢迎 阅读 本 书 。 


排版 约定 


本 书 将 使 用 如 下 排版 约定 。 





。 黑体 


























表示 新 术语 或 重点 强调 的 内 容 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 词 等 。 
。 加 粗 等 宽 粗 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


。 等 宽 斜体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 赫 换 的 文本 。 











该 图 标 表 示 提 示 或 建议 。 





该 图 标 表示 一 般 注 记 。 





该 图 标 表示 警告 或 警示 。 





使 用 颜色 


本 书 中 的 一 些 示 例 使 用 了 不 同 的 颜色 ， 但 纸 质 书 中 是 看 不 出 颜色 的 。 你 可 以 查看 https:/ 
github.com/elegant-scipy/elegant-scipy 中 的 原版 电子 书 。 


使 用 代码 示例 


本 书 的 附加 资料 (示例 代码 、 练 习题 等 ) 可 以 从 https://github.com/elegant-scipy/elegant- 
scipy 下 载 。 5 

本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联 系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 须 获得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 须 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 ,，“Elegant SciPy by Juan Nunez-Iglesias, Stéfan van der Walt, and 
Harriet Dashnow (O’Relilly). Copyright 2017 Juan Nunez-Iglesias, Stéfan van der Walt, and Harriet 
Dashnow, 978-1-491-92287-3”。 
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优雅 的 NumPy: Python 科学 
应 用 的 基础 


(NumPy ) 无 处 不 在 ， 遍 布 我 们 的 周围 。 它 甚至 现在 就 在 这 间 屋 子 里 。 不 论 望 向 
窗外 ， 还 是 打开 电视 机 ， 你 都 能 看 见 它 。 你 去 上 班 、 去 教堂 ， 其 至 去 缴 税 时 ， 都 
能 感觉 到 它 。 

一 一 里 菲 斯 ,《 黑客 帝国 》 


本 章 将 介绍 SciPy 中 的 几 个 统计 函数 ， 此 外 还 将 重点 介绍 NumPy 数组 ， 这 种 数据 结构 是 
Python 中 几乎 所 有 科学 数值 计算 的 基础 。 我 们 将 看 到 NumPy 数组 操作 如 何 用 简洁 而 又 高 
效 的 代码 来 处 理 数值 型 数据 。 


我 们 的 用 例 是 利用 基因 表达 数据 预测 皮肤 癌 患 者 的 死亡 率 ， 这 些 数据 来 自 癌症 和 肿瘤 基因 
图 谱 (TCGA，the cancer genome atlas) 计划 。 本 章 和 第 2 意 的 全 部 工作 都 是 为 了 实现 这 一 
目标 ， 同 时 还 要 学 习 SciPy 中 的 一 些 关 键 概 念 。 在 预测 死亡 率 之 前 ， 我 们 需要 使 用 一 种 称 
为 RPKM 标准 化 的 方法 将 基因 表达 数据 标准 化 ， 这 样 可 使 不 同样 本 和 基因 的 测量 结果 具有 
可 比 性 。( 稍 后 将 解释 “基因 表达 ”这 个 词 的 意义 。) 


我 们 先 用 一 段 代 码 来 热身 ， 并 介绍 本 章 的 主旨 。 每 一 章 都 会 从 一 段 示 例 代码 开始 ， 
确信 这 段 代 码 能 够 体现 SciPy 生态 系 乡 0 本 章 示 例 将 重点 介 
NumPy 的 向 量化 和 广播 规则 ， 它 们 可 以 使 我 们 非常 效 地 操纵 和 推理 数据 数组 。 


















































def rpkm(counts, lengths): 
'""Calculate reads per kilobase transcript per million reads. 


RPKM = (10*9 * C) / (N* L) 


Where : 

C = Number of reads mapped to a gene 

N = Total mapped reads in the experiment 
L = Exon Length in base pairs for a gene 


Parameters 
counts: array, shape (N_genes, N_samples) 
RNAseq (or similar) count data where columns are individual samples 
and rows are genes. 
lengths: array, shape (N_genes,) 
Gene lengths in base pairs in the same order 
as the rows in counts. 


Returns 
normed : array, shape (N_genes, N_samples) 
The RPKM normalized counts matrix. 





normed = 1e9 * C / (N[np.newaxis, :] * L[:, np.newaxis]) 


return(normed) 


这 个 示例 演示 了 NumPy 数组 使 代码 更 加 优雅 的 几 种 方法 。 


。 数 台 

数组 
。 数 引 
。 数 引 





有 可 以 是 一 维 的 (如 列表 )， 可 以 是 二 维 的 (如 矩阵 )， 也 可 以 是 更 高 维度 的 ， 这 使 得 
有 可 以 表示 多 种 形式 的 数值 型 数据 。 示 例 中 操作 的 是 二 维 矩 阵 。 
有 可 以 沿 着 轴 进 行 操作 。 在 第 一 行 代码 中 ， 通 过 指定 axis=6 沿 着 每 一 列 进行 加 总 。 

有 可 以 一 次 性 进行 多 个 数值 操作 。 例 如 ,在 函数 末尾 ,我 们 用 保存 计数 的 二 维 数组 (Cc) 


























除 以 保存 列 总 和 的 一 维 数组 〈N) 。 这 就 是 广播 机 制 ， 稍 后 会 对 其 原理 进行 详细 介绍 。 
在 深入 研究 NumPy 的 强大 功能 之 前 ， 我 们 先 花 点 时 间 介 绍 一 下 要 处 理 的 生物 学 数据 。 


1.1 
































数据 简介 : 什么 是 基因 表达 


我 们 将 完成 一 项 基因 表达 分 析 ， 以 演示 NumPy 和 SciPy 解决 实际 生物 学 问题 的 强大 能 力 。 
我 们 将 使 用 建立 在 NumPy 之 上 的 pandas 库 来 读 取 和 整理 数据 文件 ， 然 后 在 NumPy 数组 中 
高 效 地 处 理 数据 。 


根据 分 子 生物 学 中 心 法 则 ， 运 行 一 个 细胞 (有 机 体 同样 如 此 ) 所 需 的 所 有 信息 都 存储 在 一 
个 称 为 脱氧 核糖 核酸 (deoxyribonucleic acid) 的 分 子 中 ， 又 称 DNA。 这 种 分 子 有 一 个 重复 


性 骨架 ， 


缩写 分 别 是 A、C、G 和 T， 它 们 构成 了 保存 生物 信息 的 基本 结构 。 














上 面 顺 次 分 布 着 一 种 称 为 碱 基 (base) 的 化 学 成 分 ( 见 图 1-1)。 碱 基 有 四 种 类 型 ， 

















胸腺 喀 喧 






磷酸 脱氧 
核糖 骨架 











图 1-1: DNA 的 化 学 结构 (图 的 作者 为 Madeleine Price Ball， 根 据 CC0 公有 领域 许可 条 款 使 用 ) 


为 获取 这 种 信息 ，DNA 被 转录 为 一 种 姐妹 分 子 ， 称 为 信使 核糖 核酸 (mRNA ，messenger 
ribonucleic acid) 。 最 后 ， 这 种 mRNA 被 翻译 为 蛋白 质 ， 它 是 构成 细胞 的 主要 物质 ( 见 图 1-2)。 
编码 信息 (经 由 mRNA) 以 制造 蛋白 质 的 DNA 片段 称 为 基因 。 




















中 心 法 则 


一 一 一 -> 
翻译 


DNA RNA 蛋白 质 











图 1-2: 分 子 生物 学 中 心 法 则 
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由 某 种 基因 生成 的 mRNA 数量 称 为 这 种 基因 的 表达 。 尽 管理 想 的 做 法 是 测量 蛋白 质 的 表达 
水 平 ， 但 这 比 测量 mRNA 要 困难 得 多 。 好 在 mRNA 的 表达 水 平 通常 与 相应 的 蛋白 质 表 达 
水 平 是 相关 的 。 因此 ， 通 常 测量 mRNA 的 表达 水 平 并 在 此 基础 上 进行 分 析 。 正 如 你 将 在 
后 面 看 到 的 ， 这 一 般 没 有 什么 问题 ， 因 为 我 们 使 用 mRNA 水 平 的 目的 是 预测 生物 学 结果 ， 
而 不 是 对 蛋白 质 进 行 明确 的 说 明 。 


需要 注意 的 是 ， 你 体内 所 有 细胞 中 的 DNA 是 完全 相同 的 。 因 此 ， 细 胞 间 的 差异 来 自从 
DNA 转录 为 RNA 时 的 差异 性 表达 : 在 不 同 的 细胞 中 ，DNA 的 不 同 部 分 会 加 工 处 理 成 下 
游 分 子 〈 见 图 1-3)。 类 似 地 ， 我 们 将 在 本 章 及 下 一 章 中 看 到 ， 差 异性 表达 可 以 区 分 出 不 同 
类 型 的 癌症 。 






























































基因 表达 
脑 细胞 肝 细胞 皮肤 细胞 


O00 ”一 ® 
加 国 呈 加 一 
人 A AAA A 人 人 














1-3: 基因 表达 


当前 最 先进 的 mRNA 测量 技术 称 为 RNA 测序 (RNAseq)。 先 从 一 个 组 织 样本 (如 患者 的 
活体 组 织 检查 样本 ) 中 提取 出 RNA， 通 过 反 转 录 将 其 转换 为 (更 加 稳定 的 ) DNA， 然 后 
读 取 出 那些 在 组 装 DNA 序列 时 能 发 出 火光 的 经 过 化 学 修饰 的 碱 基 。 目 前 ， 高 通 量 测序 仪 
器 只 能 读 取 很 短 的 片段 (通常 在 100 个 碱 基 左右 )， 这 种 DNA 短 序列 就 称 为 read。 我 们 要 
测量 数 百 万 个 read， 然 后 根据 它们 的 顺序 计算 出 来 自 每 个 基因 的 read 数量 ( 见 图 1-4)。 我 
们 将 直接 使 用 这 些 计数 数据 开始 分 析 。 



































注 1: MAIER T, GUELL M, SERRANO L. Correlation of mRNA and protein in complex biological samples [J]. 
FEBS Letters, 2009, 583(24): 3966-3973. 
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1-4: RNA 测序 (RNAseq) 


表 1-1 展示 了 基因 表达 计数 数据 的 一 个 极 小 样本 。 
表 1-1 基因 表达 计数 数据 





























细胞 类 型 A 细胞 类 型 B 
基因 0 100 200 
基因 1 50 0 
基因 2 350 100 














这 份 数据 是 一 张 计数 表格 ， 其 中 的 整数 表示 在 每 种 细胞 类 型 中 对 每 种 基因 观察 到 的 read 数 


量 。 看 到 不 同 细胞 类 型 的 每 种 基因 在 计数 上 的 差别 了 吗 ? 我 们 可 以 用 这 样 的 信息 来 找 日 


种 细胞 间 的 差别 。 





gene1 = [50, 0] 


gene2 = [350, 100] 





在 Python 中 表示 这 种 数据 的 一 种 方法 是 使 用 列表 的 列表 。 


geneQ = [100, 200] 


expression data = [gene0, gene1, gene2] 











两 


在 以 上 代码 中 ， 每 种 基因 在 不 同 细胞 类 型 上 的 表达 被 保存 在 一 个 Python 整 型 列表 中 。 然 后 
我 们 将 这 些 列表 保存 在 一 个 列表 (如果 原 意 ， 你 可 以 称 其 为 元 列表 ，meta-list) 中 。 可 以 
用 两 级 列表 索引 提取 出 单个 数据 点 。 
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鉴于 Python 解释 


expression_data[2][0] 


350 





器 的 工作 方式 ， 这 样 保存 数据 点 是 效率 非常 低 的 一 种 方法 。 首 先 ，Python 














列表 都 是 对 象 的 列表 ， 因 此 上 面 的 gene2 列表 不 是 整数 列表 ， 而 是 一 个 指向 整数 的 指针 列 
表 ， 这 会 带 来 不 必要 的 开销 。 其 次 ， 这 种 方式 意味 着 将 列表 和 整数 随机 地 保存 在 计算 机 
RAM 中 完全 不 同 的 
分 散 保存 在 RAM 中 是 非常 低 效 的 。 


这 正 是 NumPy 数组 要 解决 的 问题 。 


1.2 NumPy 的 N 维 数组 


NumPy 的 一 种 主要 数据 类 型 是 维 数组 (ndarray， 简 称 数组 ) 。N 维 数组 是 SciPy 中 很 多 
高 级 数据 处 理 技 术 的 基础 。 本 市 将 详细 介绍 向 量化 和 广播 技术 ， 利 用 它们 可 以 写 出 强大 而 


又 





优雅 的 代码 来 处 到 





区 域 。 但 是 现代 处 理 器 更 喜欢 按 块 读 取 内 存 中 的 内 容 ， 因 此 ， 将 数据 











数据 。 


首先 研究 一 下 X 维 数组 。 这 些 数组 必须 是 同 质 的 : 数组 中 的 所 有 项 都 必须 是 同一 类 型 。 在 


上 








看 的 示例 中 ， 我 人 








] 需 要 保存 整数 。 之 所 以 称 为 N 维 数组 ， 是 因为 它 可 以 有 任意 数量 的 维 


度 。 一 维 数组 基本 上 等 价 于 Python 列表 。 


import numpy as np 


arrayld = np.array([1, 2, 3, 4]) 


print(array1d) 


print(type(array1d)) 


[1234] 


<class 'numpy.ndarray'> 


数组 具有 特殊 的 属性 和 方法 ， 在 数组 名 称 后 面 加 一 个 点 后 就 可 以 使 用 这 些 属性 和 方法 了 。 
例如 ， 可 以 使 用 以 下 代码 得 到 数组 的 形状 。 


print(array1d. shape) 


(4,) 




















结果 是 只 有 一 个 数值 的 元 组 。 或 许 你 想 知道 : 为 什么 不 像 对 待 列表 那样 使 用 Len 方法 ? 这 
里 确实 可 以 使 用 len， 但 它 不 能 扩展 到 二 维 数组 。 


表 1-1 中 数据 的 表示 方法 如 下 所 示 。 


array2d = np.array(expression_data) 


print(array2d) 





print(array2d. shape) 
print(type(array2d)) 


[[160 200] 
[50 0] 
[350 100]] 
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(3, 2) 
<class 'numpy.ndarray '> 


由 上 可 见 ，shape 属性 扩展 了 Len， 


以 表示 出 数组 中 多 个 维度 上 的 数据 大 小 〈 见 图 1-5)。 





二 维 数组 
一 维 数组 
轴 
加 回回 加 .回回 生 
轴 0 轴 1 
形状 : (4,) 形状 : (2,3) 





三 维 数组 




















形状 : (4,3,2) 








图 1-5: NumPy 的 N 维 数组 在 一 维 、 二 维和 三 维 上 的 可 视 化 表示 








数组 还 有 其 他 属性 ， 比 如 表示 维度 数量 的 ndim。 


print(array2d.ndim) 








2 











NumPy 数组 可 以 表示 具有 更 多 维度 的 数据 ， 比 如 核磁 共振 


广 
成 像 
保 


当 你 用 NumPy 完成 自己 的 数据 分 析 任 务 时 ， 你 就 会 逐渐 熟悉 这 些 属性 和 方法 。 





(MRI, magnetic resonance 
四 


imaging) 数据 ， 其 中 包括 对 三 维 立体 数据 的 测量 。 如 果 想 要 保留 随时 间 变 化 的 MRI 数据 ， 





那么 就 需要 四 维 NumPy 数组 。 


本 章 主要 探讨 二 维 数 据 ， 后 玫 
数据 。 


人 
EE 


[6 





将 介绍 














1.2.1 


数组 的 速度 非常 快 ， 基 
作用 于 整个 数组 。 如 果 
Python 实现 方式 就 是 编 
































为 什么 用 N 维 数组 代替 Python 列表 
为 它 支持 向 量化 操作 。 向 量化 操作 由 低级 语 
你 有 一 个 列表 ， 而 且 想 将 列表 中 的 每 个 元 素 都 乘 以 $， 那 么 标准 的 
写 一 个 循环 语句 ， 在 列表 的 元 素 之 间 和 迭代 ， 将 每 个 元 素 都 乘 以 5。 


维 数据 ， 并 教 你 如 何 编写 代码 来 处 理 任 意 维度 的 








i 


言 C 编写 而 成 ， 可 以 








然而 ， 如 果 数 据 是 用 数组 表示 的 ， 那 么 你 就 可 以 一 次 性 将 数组 中 的 所 有 元 素 都 乘 以 35。 高 


度 优化 的 NumPy 库 会 在 后 台 尽快 完成 这 些 和 迭代 。 
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import numpy as np 














# 创建 一 个 取 值 范围 为 0~1 060 006 (不 含 ) 的 N 维 整数 数组 


array = np.arange(1e6) 





# 将 数组 转换 成 列表 
list array = array.tolist() 
我 们 用 了 Python 中 的 timeit 函数 来 比较 一 下 将 数组 中 所 有 值 乘 以 5 所 用 的 时 间 。 先 看 看 数 
据 在 列表 中 的 情况 。 


%timeit -n10 y = [val * 5 for val in Litst array] 


10 loops, average of 7: 102 ms +- 8.77 ms per loop (using standard deviation) 


然后 使 用 NumPy 中 内 置 的 向 量化 操作 。 


%timeit -n10 x = array * 5 
10 loops, average of 7: 1.28 ms +- 206 hs per loop (using standard deviation) 
比 原来 快 了 50 多 倍 ， 而 且 代 码 更 简洁 ! 


数组 还 比 列表 具有 更 高 的 存储 效率 。 在 Python 中 ， 列 表 中 的 每 个 元 素 都 是 一 个 对 象 ， 并 进 
行 了 健康 的 内 存 分 配 。( 真 的 健康 吗 ? ) 相 比 之 下 ， 数 组 中 的 每 个 元 素 只 占用 必要 的 内 存 。 
例如 ， 在 一 个 64 位 的 整数 数组 中 ， 每 个 元 素 占 用 的 空间 就 是 64 位 ， 除 此 之 外 ， 数 组 还 有 
一 些微 不 足 道 的 额外 开销 ， 用 于 存储 元 数据 ， 比 如 前 面 讨 论 过 的 shape 属性 。 这 种 存储 方 
式 占 用 的 空间 通常 远 远 小 于 Python 列表 中 的 对 象 所 占用 的 空间 。( 如 果 想 要 更 加 深入 地 研 
究 一 下 Python 的 内 存 分 配 原理 ， 可 以 阅读 Jake VanderPlass 的 博文 “Why Python Is Slow: 
Looking Under the Hood ,) 

此 外 ， 当 用 数组 进行 计算 时 ， 你 还 可 以 使 用 切片 操作 在 不 复制 基础 数据 的 情况 下 取 数 组 的 
子 集 。 

# 创建 一 个 N 维 数组 x 


x = np.array([1, 2, 3], np.int32) 
print(x) 












































[1 2 3] 





# 创建 x 的 一 个 “切片 ” 
y = x[:2] 

print(y) 

[1 2] 

# 将 y 的 第 一 个 元 素 设置 为 6 
y[0] = 6 

print(y) 

[6 2] 


注意 ， 尽 管 我 们 编辑 了 y， 但 x 也 被 修改 了 ， 因 为 y 和 x 引用 的 是 同一 数据 ! 
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# 现在 x 中 的 第 一 个 元 素 变 成 6 了 
print(x) 








[6 2 3] 
这 意味 着 进行 数组 引用 操作 时 一 定 要 小 心 。 如 果 想 在 处 理 数据 的 同时 不 改变 初始 数据 ， 就 
应 该 复制 数据 。 


y = np.copy(x[:2]) 


1.2.2 向 量化 

前 面 讨论 过 数组 操作 的 速度 。NumPy 用 来 提高 数组 操作 速度 的 一 项 诀窍 就 是 向 量化 。 向 量 
化 无 须 使 用 for 循环 就 可 以 对 数组 中 的 每 个 元 素 进 行 计 算 。 除 了 能 提高 数组 操作 的 速度 ， 
它 还 可 以 使 代码 更 自然 易 读 。 下 面 来 看 几 个 示例 。 


x = np.array([1, 2, 3, 4]) 
print(x * 2) 





























[246 8] 


这 里 x 数组 中 有 4 个 值 ， 我 们 隐 式 地 将 x 中 的 每 个 元 素 都 乘 以 单一 值 2。 

y = np.array([0, 1, 2, 1]) 

print(x + y) 

[1355] 
我 们 将 x 中 的 每 个 元 素 与 y 中 的 对 应 元 素 相 加 ，y 是 与 x 形状 相同 的 数组 。 
我 们 希望 这 两 个 操作 简单 而 又 直观 地 说 明了 什么 是 向 量化 。NumPy 使 得 向 量化 的 速度 非常 
快 ， 比 手动 碗 代数 组 要 快 得 多 。( 你 可 以 使 用 IPython 中 的 命令 %timeit 验证 一 下 ， 做 法 前 
面 提 过 。) 


1.2.3 广播 


广播 是 在 两 个 数组 间 执 行 隐 式 操作 的 一 种 方法 ， 它 是 N 维 数组 中 最 强大 却 经 党 被 误解 的 功 
能 之 一 。 广 播 允 许 你 在 形状 兼容 的 两 个 数组 间 执 行 操 作 ， 它 可 以 创建 出 比 任何 一 个 初始 数 
组 都 大 的 数组 。 例 如 ， 通 过 恰当 地 重 塑 两 个 向 量 ， 可 以 计算 出 它们 的 外 积 。 

x = np.array([1, 2, 3, 4]) 

x = np.reshape(x, (len(x), 1)) 


print(x) 
[[1] 











y = np.array([90, 1, 2, 1]) 
y = np.reshape(y, (1, len(y))) 
print(y) 


[[0 1 2 1]] 
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对 于 两 个 数组 的 每 个 维度 ， 如 果 其 中 一 个 等 于 1， 或 者 两 个 维度 彼此 匹配 ， 那 么 就 可 以 说 
这 两 个 数组 的 形状 是 兼容 的 。” 
我 们 检查 一 下 这 两 个 数组 的 形状 。 








print(x.shape) 
print(y.shape) 


(4, 1) 
(1, 4) 


两 个 数组 都 有 两 个 维度 ， 而 且 内 侧 维 度 都 等 于 1， 因此 这 两 个 数组 的 形状 是 兼容 的 ! 


outer =x*y 
print(outer) 


[[o 121] 
[0 2 4 2] 


[0 3 6 3] 
[9 4 8 4]] 


外 侧 维 度 可 以 告诉 我 们 结果 数组 的 大 小 。 在 这 个 示例 中 ， 我 们 可 以 得 到 一 个 形状 为 (4, 4) 
的 数组 。 

print(outer. shape) 

(4, 4) 
你 可 以 检查 一 下 ， 对 于 所 有 的 (i,，j), 都 有 outer[i, j] = x[i] * y[j]。 


这 种 操作 是 根据 NumPy 的 广播 法 则 完成 的 ， 它 隐 式 地 扩展 了 一 个 数组 中 长 度 为 1 的 维度 ， 
以 匹配 另 一 个 数组 中 相应 的 维度 。 稍 安 勿 躁 ， 本 章 后 面 会 更 加 详细 地 讨论 这 些 规则 。 


我 们 将 在 本 章 余 下 的 内 容 中 看 到 ， 当 探索 实际 数据 时 ， 广 播 机 制 对 于 数组 数据 的 计算 极其 
有 价值 ， 它 使 我 们 可 以 简洁 而 又 高 效 地 实现 非常 复杂 的 操作 。 


1.3 ”探索 基因 表达 数据 集 

我 们 将 要 使 用 的 数据 集 是 一 份 皮肤 癌 样 本 的 RNA 测序 实验 数据 ， 它 来 自 TCGA 计划 。 我 
们 已 经 对 数据 进行 了 清洗 和 排序 ， 你 可 以 直接 使 用 本 书 仓库 中 的 data/counts.txt 文件 。 
在 第 2 章 中 ， 我 们 将 使 用 这 份 基因 表达 数据 来 预测 皮肤 癌 患 者 的 死亡 率 ， 并 为 TCGA 组 织 
的 一 篇 论文 中 的 图 5A 和 图 5B 重新 制作 一 份 简化 的 版 本 。 但 我 们 先 要 搞 清楚 数据 中 的 偏 
差 ， 并 思考 如 何 改进 。 

用 pandas 读 取 数 所 

首先 ， 用 pandas 在 计数 表格 中 读 取 数据 。pandas 是 一 个 专门 用 于 数据 处 理 和 分 析 的 库 ， 






















































































注 2: 我 们 总 是 从 最 后 一 个 维度 开始 比较 ， 并 逐步 向 前 推进 。 如 果 一 个 数组 的 维度 数量 比 另 一 个 多 ， 则 忽略 
多 余 的 维度 。 例 如 ，(3，5，1) 和 (5，8) 是 可 以 匹配 的 。 








10 | 第 1 章 














它 特别 重视 对 表格 数据 和 时 间 序 列 数 据 的 处 理 。 这 里 我 们 将 用 它 读 取 混合 类 型 的 表格 数 
据 。pandas 使 用 的 是 DataFrame 类 型 ， 这 是 一 种 非常 灵活 的 表格 形式 ， 基 于 R 语言 中 的 数 
据 框 对 象 开 发 而 成 。 例 如 ， 我 们 将 读 取 的 数据 中 有 一 列 是 基因 名 称 (字符 串 )， 还 有 多 列 
是 计数 数据 (整数 )， 因 此 ， 将 其 读 取 到 具有 同 质数 据 的 数组 中 是 一 种 错误 的 做 法 。 虽 然 
NumPy 对 于 混合 数据 类 型 ( 称 为 “结构 化 数组 ”) 有 一 定 的 支持 ， 但 其 设计 初 囊 并 不 是 处 
理 这 种 情况 ， 这 会 使 得 随后 的 操作 产生 一 些 不 必要 的 问题 。 


将 数据 读 取 到 pandas 数据 框 中 可 以 让 pandas 完成 所 有 解析 工作 ， 然 后 提取 出 相关 信息 并 
保存 到 更 高 效 的 数据 类 型 中 。 本 章 主要 用 pandas 完成 数据 导入 ， 后 面 的 章节 会 使 用 pandas 
的 更 多 功能 。 如 果 想 要 详细 学 习 pandas， 可 以 阅读 pandas 创建 者 Wes McKinney 的 著作 
《利用 Python 进行 数据 分 析 》。 


import numpy as np 
import pandas as pd 

































































# 导入 TCGA 黑 色素 瘤 数据 
filename = 'data/counts.txt' 
with open(filename, 'rt') as f: 
data_table = pd.read_csv(f，index_col=0) # 用 pandas 解 析 文 件 





print(data table.iloc[:5, :5]) 


00624286-41dd-476f-a63b-d2a5f484bb45 TCGA-FS-A17Z0 TCGA-D9-A371 \ 


A1BG 1272.36 452.96 288.06 

A1CF 0.00 0.00 0.00 

A2BP1 0.00 0.00 0.00 

A2LD1 164.38 552.43 201.83 

A2ML1 27.00 0.00 0.00 
02c76d24-f1d2-4029-95b4-8be3bda8fdbe TCGA-EB-A51B 

A1BG 400.11 420.46 

A1CF 1.00 0.00 

A2BP1 0.00 1.00 

A2LD1 165.12 95.75 

A2ML1 0.00 8.00 





可 以 看 出 ，pandas 贴心 地 提取 出 了 标题 行 ， 并 用 它 对 各 列 进行 了 命名 。 第 一 列 给 出 了 每 种 
基因 的 名 称 ， 其 余 各 列表 示 独 立 的 样本 。 


我 们 还 需要 一 些 相 应 的 元 数据 ， 其 中 包括 样本 信息 和 基因 长 度 。 
# 样本 名 称 


samples = list(data_table.columns) 


我 们 还 需要 一 些 关 于 基因 长 度 的 信息 ， 以 便 进 行 标准 化 。 为 了 能 够 使 用 pandas 索引 的 一 些 
奇妙 功能 ， 我 们 将 pandas 表 中 的 第 一 列 基 因 名 称 设 定 为 索引 。 


# 导入 基因 长 度 
filename = 'data/genes.csv' 
with open(filename, 'rt') as f: 
# 使 用 pandas 解 析 文 件 ， 以 GeneSymbol 作 为 索引 


gene_info = pd.read_csv(f, index_col=0) 
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print(gene_info.iloc[:5, 


:]) 


GeneID GeneLength 


GeneSymbol 

CPA1 1357 
GUCY2D 3000 
UBC 7316 
Cliorf95 65998 
ANKMY2 57037 








1724 
3623 
2687 
5581 
2611 


我 们 检查 一 下 基因 长 度数 据 与 计数 数据 的 匹配 情况 。 


print("Genes in data_table: ", data_table.shape[0]) 


print("Genes in gene_info: 


，gene_info.shape[0]) 


Genes in data_table: 20500 
Genes in gene_info: 20503 





与 实验 中 实际 测量 的 基因 相 比 ， 基 因 长 度数 据 中 的 基因 数量 更 多 。 我 们 需要 筛选 基因 长 度 
数据 ， 只 保留 那些 相关 的 基因 ， 并 确保 它们 与 计数 数据 中 的 基因 有 具有 相同 的 顺序 。 这 就 到 
了 pandas 索引 大 显 身 手 的 时 候 了 ! 我 们 可 以 找 出 两 种 源 数据 中 基因 名 称 的 交集 ， 然 后 用 它 
来 索引 两 个 数据 集 ， 确 保 两 个 数据 集 具 有 同样 的 基因 和 顺序 。 

# 取 基 因 信息 的 子 集 来 匹配 计数 数据 


matched_index = pd.Index.intersection(data_tabLe.index，gene_info.index) 


现在 ， 用 基因 名 称 的 交集 来 索引 计数 数据 。 


还 有 基 
# 一 级 





# 二 维 数 组 包含 了 每 个 猎 






































R 立 样本 中 每 种 基因 的 表达 计数 








counts = np.asarray(data_tabLe.Loc[matched_index]，dtype=int) 


gene_names = np.array(matched_index) 








# 检查 测量 的 基因 数 和 独立 


print(f'{counts.shape[0]} genes measured in {counts.shape[1]} individuals.') 














样本 数 





20500 genes measured in 375 individuals. 








因 长 度数 据 : 


数组 包含 了 每 种 基因 











的 长 度 


gene_Lengths = np.asarray(gene_info.loc[matched_ index]['GeneLength'], 


再 检查 一 下 对 象 的 维度 : 


print(counts.shape) 
print(gene_Lengths.shape) 


(20500，375) 
(20500 ,) 


不 出 所 料 ， 它 们 匹配 得 非常 完美 ! 


dtype=int) 





1.4 标准 化 

真实 世界 中 的 数据 包含 了 各 种 各 样 的 测量 方法 ， 在 使 用 它们 进行 任意 类 型 的 分 析 前 ， 对 其 
进行 检查 ， 以 确定 是 否 需要 标准 化 ， 是 非常 重要 的 。 例 如 ， 使 用 数字 温度 计 进行 测量 与 使 
用 水 银 温 度 计 并 由 人 读数 之 间 有 系统 性 的 差别 。 因 此 ， 做 样本 比较 时 经 常 要 做 一 定 的 数据 
整理 工作 ， 让 所 有 测量 结果 具有 同样 的 尺度 。 


就 我 们 的 示例 来 说 ， 需 要 确保 揭示 出 的 任何 数据 差异 都 是 由 真实 的 生物 学 差异 造成 的 ， 而 
不 是 由 测量 的 技术 手段 造成 的 。 我 们 将 考虑 两 种 层次 的 标准 化 ， 它 们 经 常 联合 应 用 于 基因 
表达 数据 集 ， 这 就 是 样本 ( 列 ) 间 的 标准 化 和 基因 ( 行 ) 间 的 标准 化 。 


1.4.1 样本 间 的 标准 化 
例如 ， 在 RNA 测序 实验 中 ， 独 立 样本 间 的 计数 值 会 相差 很 大 。 我 们 看 一 下 基因 表达 计数 
数据 在 所 有 基因 间 的 分 布 。 首 先 ， 对 列 进行 加 总 ， 以 得 到 每 个 独立 样本 中 所 有 基因 表达 的 
总 计数 值 ， 这 样 就 可 以 检查 独立 样本 间 的 变动 了 。 为 了 对 总 计数 分 布 进行 可 视 化 ， 我 们 将 
使 用 核 密度 估计 (KDE，kernel density estimation) ， 这 是 一 种 常用 于 对 直方 图 进行 平滑 的 
技术 ， 它 可 以 更 加 清晰 地 描绘 出 基础 分 布 。 
在 开始 之 前 ， 需 要 先进 行 一 些 绘图 设置 工作 (每 一 章 都 要 这 样 做 )。 请 看 下 方 附注 栏 “ 有 
关 绘 图 的 简单 介绍 ”， 以 了 解 下 面 每 行 代码 的 具体 作用 。 

# 使 图 表 出 现在 文本 中 

%matplotlib inline 


# 使 用 自己 的 图 表 样 式 文件 
import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 


















































































































































有 关 绘 图 的 简单 介绍 
以 上 代码 使 用 了 一 些 技 巧 ， 使 得 图 表 更 加 美观 。 


首先 ，%matplotlib inline 是 一 个 神奇 的 Jupyter 笔记 本 命令 ， 它 使 所 有 图 表 出 现在 笔 
记 本 中 ， 而 不 是 弹出 新 窗口 。 如 果 正 在 以 交互 方式 运行 Jupyter 笔记 本 ,那么 你 可 以 用 
%matplotlib notebook 得 到 一 张 交 互 式 图 表 ， 而 不 是 每 次 绘图 都 得 到 一 张 静 态 图 片 。 


其 次 ， 导 入 matplotlib.pyplot， 并 指示 它 使 用 我 们 自己 的 绘图 样式 pLt.styte.use('stytLe/ 
elegant.mplstyle')。 在 每 章 的 第 一 次 绘图 前 ， 你 都 会 看 到 类 似 的 代码 。 


或 许 你 见 过 有 人 导入 已 有 的 样式 ， 如 plt.style.use('ggplot')。 但 因为 想 要 一 些 特 别 
的 设置 ， 并 使 本 书 中 的 所 有 绘图 都 遵循 同样 的 风格 ， 所 以 我 们 使 用 自己 的 Matplotlib 
样式 。 如 果 想 知道 我 们 是 如 何 做 到 的 ， 可 以 查看 本 书库 中 的 样式 表 文 件 : style/elegant. 
mplstyle。 如 果 想 了 解 关 于 样式 的 更 多 信息 ， 可 参见 Matplotlib 样式 表 文 档 。 
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现在 我 们 回 过 头 来 绘制 计数 分 布 ! 


totaL_counts = np.sum(counts，axis=0) # 对 列 进 行 加 总 
# (axis=1 可 以 对 行进 行 加 总 ) 














from scipy import stats 


# 用 高 斯 平 请 估计 密度 


density = stats.kde.gaussian kde(total_counts) 




















# 生成 用 来 估计 密度 的 值 ， 准 备 绘图 


x = np.arange(min(total_counts), max(total_counts), 10000) 


# 生成 密度 图 

fig, ax = plt.subplots() 

ax.plot(x, density(x)) 

ax.set xlabel("Total counts per individual") 
ax.set_ylabel("Density") 

plt. show() 


print(f'Count statistics:\n min: {np.min(total_counts)}’' 
f'\n mean: {np.mean(total_counts)}' 
f'\n max: {np.max(total_counts)}') 


Count statistics: 
min: 6231205 
mean: 52995255.33866667 
max: 103219262 


可 以 看 出 ， 对 于 独立 样本 来 说 ， 最 低 的 计数 值 与 最 高 的 计数 值 相差 好 几 个 数量 级 ( 见 图 1-6)。 
这 意味 着 每 个 独立 样本 生成 的 RNA 测序 read 数 都 是 不 同 的 ， 我 们 称 这 些 独 立 样本 具有 不 
同 的 库容 量 。 
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1-6: 用 KDE 平滑 生成 的 每 个 独立 样本 基因 表达 计数 密度 图 








样本 间 的 库容 量 标准 化 

我 们 来 更 加 仔细 地 审视 一 下 每 个 独立 样本 的 基因 表达 范围 ， 这 样 一 来 ， 对 其 进行 标准 化 
后 ， 就 可 以 更 好 地 查看 标准 化 的 效果 。 我 们 将 取出 一 个 只 有 70 列 的 随机 样本 子 集 ， 确 保 
绘图 不 会 过 于 凌乱 。 


# 取 数 据 子 集 用 于 绘图 
np.random.seed(seed=7) # 设 定 随机 数 种 子 ， 以 得 到 一 致 的 结果 

# 随机 选择 76 个 样本 

samples_index = np.random.choice(range(counts.shape[1]), size=70, replace=False) 
counts_subset = counts[:, samples_index] 


# 定制 x 轴 标 签 ， 使 图 表 更 加 易 读 
def reduce xaxis labels(ax, factor): 
"""Show only every ith label to prevent crowding on x-axis 
e.g. factor = 2 would plot every second x-axis label, 
starting at the first. 















































Parameters 
ax : matplotlib plot axis to be adjusted 
factor : int, factor to reduce the number of x-axis labels by 


plt.setp(ax.xaxis.get ticklabels(), visible=False) 
for label in ax.xaxis.get ticklabels()[factor-1::factor]: 
label.set visible(True) 


# 每 个 独立 样本 表达 计数 的 箱 线 图 
fig, ax = plt.subplots(figsize=(4.8, 2.4)) 


with plt.style.context('style/thinner.mplstyle'): 
ax.boxplot(counts_subset) 
ax.set xlabel("Individuals") 
ax.set_ylabel("Gene expression counts") 
reduce_xaxis_labels(ax, 5) 


基因 表达 的 高 端 坐标 附近 明显 有 很 多 离 群 点 ， 各 个 独立 样本 之 间 的 波动 也 非常 大 ， 但 图 中 
很 难看 出 这 些 情况 ， 因 为 几乎 所 有 点 都 聚集 在 0 附近 〈 见 图 1-7)。 因 此 ， 我 们 对 数据 进行 
log(n + 1) 的 对 数 变换 ， 使 其 更 易于 查看 ( 见 图 1-8)。 对 数 函 数 和 nn + 1 操作 都 可 以 用 广播 
机 制 完 成 ， 这 样 一 来 ， 代 码 会 更 简洁 ， 速 度 也 会 更 快 。 
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1-7: 独立 样本 基因 表达 计数 的 箱 线 图 
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# 每 个 独立 样本 表达 计数 的 箱 线 图 
fig, ax = plt.subplots(figsize=(4.8, 2.4)) 














with plt.style.context('style/thinner.mplstyle'): 
ax.boxpLot(np.Log(counts_subset + 1)) 
ax.set_xlabel("Individuals") 
ax.set_ylabel("log gene expression counts") 
reduce_xaxis_labels(ax, 5) 








15.0 
12.5 
10.0 
7.5 
5.0 
2: 


Ul 


log gene expression counts 





0.0 
5 10 15 20 25 30 35 40 45 50 55 60 65 70 
Individuals 





图 1-8: 每 个 独立 样本 基因 表达 计数 的 箱 线 图 (对 数 标 度 ) 
接 下 来 看 一 下 按 库容 量 进行 标准 化 会 是 什么 情况 〈 见 图 1-9)。 

















# 按 库容 量 进行 标准 化 

# 用 基因 表达 计数 除 以 来 自 独 立 样 本 的 总 计数 

# 再 乘 以 1 000 000， 使 数值 回 到 相似 的 量 级 
Counts_Lib_norm = counts / totaL_counts * 1000000 
# 注意 这 里 使 用 了 两 次 广播 机 制 


Counts_subset_Lib_norm = Counts_Lib_norm[: ,sampLes_index] 




















# 每 个 独立 样本 表达 计数 的 箱 线 图 
fig, ax = plt.subplots(figsize=(4.8, 2.4)) 














with plt.style.context('style/thinner.mplstyle'): 
ax.boxpLot(np.Log(counts_subset_Lib_norm + 1)) 
ax.set_xlabel("Individuals") 
ax.set_ylabel("log gene expression counts") 
reduce_xaxis_labels(ax, 5) 
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图 1-9: 库容 量 标准 化 后 的 每 个 独立 样本 基因 表达 计数 的 箱 线 图 (对 数 标 度 ) 

现在 好 多 了 1! 还 需要 注意 的 是 ， 我 们 使 用 了 两 次 广播 机 制 。 第 一 次 是 用 所 有 基因 表达 计数 
除 以 那 一 列 的 总 计数 ， 第 二 次 是 将 所 有 值 都 乘 以 1 000 000。 

最 后 ， 比 较 一 下 标准 化 后 的 数据 和 原始 数据 。 


import itertools as it 
from collections import defaultdict 

















def class_boxplot(data, classes, colors=None, **kwargs): 
"""Make a boxplot with boxes colored according to the class they belong to. 


Parameters 

data : list of array-like of float 
The input data. One boxplot will be generated for each element 
in “data. 

classes : list of string, same Length as ‘data. 
The class each distribution in ‘data. belongs to. 


Other parameters 
kwargs : dict 

Keyword arguments to pass on to ‘plt.boxplot. 
all_classes = sorted(set(classes)) 
colors = plt.rcparams['axes.prop_cycle'].by_key()['color'] 
class2color = dict(zip(all_classes, it.cycle(colors))) 


# 将 类 映射 到 数据 向 量 
# 为 了 对 齐 ， 在 类 中 没有 数据 的 相应 位 置 添加 空 列表 
class2data = defaultdict(list) 
for distrib, cls in zip(data, classes): 
for c in all_classes: 
class2data[c].append([]) 
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class2data[cls][-1] = distrib 





| 


# 然后 用 适当 的 颜色 依次 生成 每 个 箱 线 
fig, ax = plt.subplots() 
lines = [] 
for cls in all_classes: 
# 为 箱 线 图 的 所 有 元 素 设 定 颜色 
for key in ['boxprops', 'whiskerprops', 'flierprops']: 
kwargs.setdefault(key, {}).update(color=class2color[cls]) 
# 画 出 箱 线 图 
box = ax.boxplot(class2data[cls], **kwargs) 
lines.append(box[ 'whiskers'][0]) 
ax.legend(lines, all_classes) 
return ax 


现在 我 们 可 以 根据 标准 化 样本 与 未 标准 化 样本 绘制 出 带 颜色 的 箱 线 图 。 出 于 演示 的 目的 ， 
每 个 类 只 显示 出 3 个 样本 。 


log_counts_3 = list(np.log(counts.T[:3] + 1)) 

log_ncounts_3 = list(np.log(counts_lib_norm.T[:3] + 1)) 

ax = class_boxplot(log_counts_3 + Log_ncounts_3， 
['raw counts'] * 3 + ['normalized by library size'] * 3， 
labels=[1, 2, 3, 1, 2, 3]) 

ax.set xlabel('sample number') 

ax.set_ylabel('log gene expression counts'); 


可 以 看 出 ， 考 虑 到 库容 量 (样本 分 布 的 总 和 ) 后 ， 样 本 的 标准 化 分 布 更 相似 一 些 ( 见 
现在 我 们 是 在 样本 之 间 进 行 同类 比较 ， 那 么 基因 之 间 有 什么 样 的 差异 呢 ? 
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图 1-10: 用 3 个 样本 比较 原始 计数 与 库容 量 标准 化 后 的 基因 表达 计数 (对 数 标 度 ) 





1.4.2 ”基因 间 的 标准 化 


当 试图 比较 不 同 的 基因 时 ， 我 们 同样 会 遇 到 麻烦 。 基 因 的 计数 值 与 基因 长 度 相关 。 假 设 基 
因 B 的 长 度 是 基因 4 的 两 倍 。 二 者 在 样本 中 的 表达 处 于 同一 水 平 (也 就 是 说 ， 两 个 基因 生 
成 的 mRNA 分 子 数量 非常 接近 )。 回 忆 一 下 ， 在 RNA 测序 实验 中 ， 我 们 将 转录 本 分 割 成 
很 多 小 的 片段 ， 然 后 从 片段 池 中 对 read 进行 抽样 。 因 此 ， 如 果 一 个 基因 的 长 度 是 另 一 个 基 
因 的 两 倍 ， 那 么 它 产 生 的 片段 数量 也 是 另 一 个 基因 的 两 倍 ， 被 抽取 出 样本 的 概率 也 是 另 一 
个 基因 的 两 倍 。 因 此 我 们 可 以 预计 基因 8B 的 表达 计数 是 基因 4 的 两 倍 〈 见 图 1-11)。 如 果 
想 要 比较 不 同 基因 的 表达 水 平 ， 就 必须 做 更 多 的 标准 化 工作 。 


IUD 中 作 人 中 (4 
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1-11， 表达 计数 与 基因 长 度 之 间 的 关系 


我 们 看 一 下 基因 长 度 和 表达 计数 间 的 关系 能 否 体现 在 数据 集中 。 首 先 ， 定义 一 个 用 于 绘图 
的 工具 函数 。 
def binned_boxplot(x,y，*，,# 看 一 下 Python 3 中 特有 的 这 个 功能 (* 参 见 “Python 3 小 技巧 ”) 
xlabel='gene Length (log scale)', 


ylabel='average log counts'): 
""PLot the distribution of ‘y. dependent on ‘x using many boxplots. 





























Note: all inputs are expected to be log-scaled. 


Parameters 
x: 1D array of float 
Independent variable values. 
y: 1D array of float 
Dependent variable values. 


# 根据 观测 密度 定义 x 的 分 箱 


x_hist, x_bins = np.histogram(x, bins='auto') 


# 用 np.digitize 为 分 箱 标号 
# 于 弃 最 后 一 个 分 箱 的 边缘 ， 因 为 它 违 背 了 digitize 的 右 开 放假 设 。 
# 最 大 的 观测 正确 地 进入 最 后 一 个 分 箱 


x_bin idxs = np.digitize(x, x_bins[:-1]) 

















# 用 这 些 标号 创建 一 个 数组 列表 ， 其 中 每 个 数组 都 包含 那个 分 箱 中 的 x 所 对 应 的 y 值 。 
# 这 是 plt. boxptot 所 期 望 的 输入 格式 。 
binned_y = [y[x_bin idxs == i] 
for i in range(np.max(x_bin_idxs))] 
fig, ax = plt.subplots(figsize=(4.8,1)) 
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# 用 分 箱 中 心 作为 x 轴 的 标签 

x_bin_ centers = (x_bins[1:] + x_bins[:-1]) /2 
x_ticklabels = np.round(np.exp(x_bin centers)).astype(int) 
# 生成 箱 线 区 

















ax.boxplot(binned y, labels=x_ticklabels) 


# 仅 显 示 每 10 个 标签 ， 以 免 x 轴 过 于 拥挤 


reduce_xaxis_ labels(ax, 10) 








# 调整 坐标 轴 名 称 
ax.set xlabel(xlabel) 
ax.set_ylabel(ylabel); 





Python 3 小 技巧 : 用 * 创建 强制 关键 字 参 数 


从 3.0 版 开始 ，Python 允许 使 用 “强制 关键 字 ” 参 数 。 这 些 参数 必须 用 关键 字 来 调用 ， 
不 能 只 靠 位 置 。 例 如 ， 要 想 调用 binned_boxplot， 可 以 使 用 以 下 形式 。 


>>> binned_ boxplot(x, y, xlabel='my x label', ylabel='my y label') 
但 不 能 使 用 以 下 形式 ， 虽 然 它 在 Python 2 中 有 效 ， 但 在 Python 3 中 会 引发 错误 。 
>>> binned_ boxplot(x, y, 'my x label', 'my y label') 


TypeError Traceback (most recent call last) 
<ipython-input-58-7a118d2d5750in <module>() 

1 x_vals = [1, 2, 3, 4, 5] 

2 y_vals = [1, 2, 3, 4, 5] 
----3 binned_ boxplot(x, y, 'my x label', 'my y label') 


TypeError: binned boxplot() takes 2 positional arguments but 4 were given 
这 种 设计 理念 是 为 了 防止 你 意外 地 写成 以 下 形式 。 
binned_boxplot(x, y, 'my y label') 


这 会 导致 在 x* 轴 上 设 定 y 轴 标签 ， 当 使 用 很 多 没有 明显 顺序 的 可 选 参 数 时 ， 经 常会 出 
现 这 种 错误 。 














现在 计算 一 下 基因 长 度 和 表达 计数 。 


Log_counts = np.log(counts_lib norm + 1) 
mean_Log_counts = np.mean(Log_counts，axis=1) # 对 所 有 样本 
Log_gene_Lengths = np.Log(gene_Lengths) 








with pLt.styLe.context('styLe/thinner .mpLstyLe ' ) : 
binned_boxplot(x=log_gene_lengths, y=mean_log_counts) 


从 下 图 中 可 以 看 出 ， 基 因 越 长 ， 测 量 出 的 计数 越 多 。 正 如 前 面 解释 过 的 ， 这 是 技术 手段 造 
成 的 ， 并 不 是 一 种 生物 学 现象 ! 怎么 解决 这 个 问题 呢 ? 
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1.4.3 ”样本 与 基因 标准 化 : RPKM 


对 RNA 测序 数据 进行 标准 化 的 最 简单 的 方法 之 一 就 是 RPKM: 每 百 万 read 中 来 自 每 千 碱 
基 转 录 本 的 read 数 。RPKM 综合 了 按照 样本 和 按照 基因 进行 标准 化 的 思想 。 当 计算 RPKM 
时 ， 我 们 既 对 库容 量 (每 列 之 和 ) 也 对 基因 长 度 进行 标准 化 。 


为 了 理解 RPKM 是 如 何 推导 出 的 ， 我 们 先 定义 以 下 儿 个 值 : 


。 C= 映射 到 一 个 基因 的 read 数 
。 L= 一 个 基因 以 碱 基 对 为 单位 的 外 显 子 长 度 
。 N= 实验 中 映射 read 的 总 数 


首先 ， 计 算 每 千 碱 基 的 read 数 。 
每 碱 基 read 数 如 下 所 示 : 




















和 


公式 需要 的 是 每 千 碱 基 read 数 ， 而 不 是 每 碱 基 read 数 。1 千 碱 基 = 1000 碱 基 ， 因 此 我 们 
需要 将 长 度 ( 工 ) 除 以 1000。 


每 千 碱 基 read 数 如 下 所 示 : 





C _10C 
L/1000 工 











接着 需要 按 库容 量 进行 标准 化 。 如 果 只 是 除 以 映射 read 数 ， 可 以 得 到 : 
103C 
LN 


但 是 生物 学 家 喜欢 用 每 百 万 read 数 ， 这 样 最 后 的 值 不 会 太 大 。 按 照 每 百 万 read 数 计 算 ， 
可 以 得 到 : 











10C _10C 
L(N/10°)) LN 
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my 


归纳 一 下 ， 要 想 计算 每 百 万 read 中 来 自 每 千 碱 基 转 录 本 的 read 数 ， 可 以 使 用 以 下 公式 : 





9 
RPKM=10 C 
LN 





现在 在 整个 计数 数组 上 实现 RPKM。 
# 使 变量 名 称 与 RPKM 公 式 一 致 ， 以 便 比 较 


C= counts 








N = counts.sum(axis=0) # 对 每 列 进行 加 总 ， 以 得 到 每 个 样本 的 总 read 数 
L = gene_lengths # 每 个 基因 的 长 度 ， 与 C 中 的 行 匹配 


























首先 要 乘 以 10"。 因 为 计数 (C) 是 个 N 维 数组 ， 所 以 可 以 使 用 广播 机 制 。 如 果 用 单个 值 乘 
以 VN 维 数组 ， 那 么 这 个 值 就 可 以 广播 到 整个 数组 中 。 

# 所 有 计数 乘 以 10? 

C_tmp = 10^9 * C 
然后 要 除 以 基因 长 度 。 将 单一 值 广播 到 二 维 数组 非常 简单 ， 只 要 用 这 个 值 乘 以 数组 中 的 每 
个 元 素 就 可 以 了 。 但 如 果 需 要 将 二 维 数组 除 以 一 个 一 维 数 组 ， 应 该 怎么 做 呢 ? 


1. 广播 规则 

广播 机 制 允 许 在 不 同形 状 的 V 维 数组 之 间 进 行 计算 。NumPy 通过 广播 规则 使 得 这 种 操作 
更 容易 一 些 。 当 两 个 数组 具有 同样 数量 的 维度 时 ， 如 果 每 个 维度 大 小 匹配 或 者 有 一 个 维度 
等 于 1， 那 么 就 可 以 进行 广播 。 如 果 两 个 数组 具有 不 同 数量 的 维度 ， 那 么 就 可 以 在 维度 较 
少 的 数组 前 面 添 加 (1,)， 直 到 维度 数量 相等 ， 然 后 再 使 用 标准 广播 规则 。 


举例 来 说 ,假设 有 两 个 N 维 数组 4 和 8， 形状 分 别 是 (5,2) 和 (2,)， 我 们 用 广播 规则 定 
义 4 和 B 的 积 A * B。 因 为 8 的 维度 数 比 4 少 ， 所 以 在 计算 过 程 中 在 B 前 面 添加 一 个 值 
为 1 的 新 维度 ,使 B 的 形状 变 为 (1,2)。 最 后 ， 只 要 B 的 形状 与 4 不 匹配 ， 就 不 断 对 B 进 
行 堆积 复制 ， 直 到 它 的 形状 变 为 (5,2)。 这 个 过 程 是 “虚拟 ”进行 的 ， 并 不 占用 任何 额外 
的 内 存 。 在 做 乘法 时 ， 两 个 数组 的 各 个 元 素 依次 相 乘 ， 最 后 的 结果 是 一 个 与 4 形状 相同 的 
数组 。 

假设 我 们 有 另 一 个 形状 为 (2,5) 的 数组 C。 要 想 使 C 与 也 相 乘 (或 相 加 )， 可 以 试 着 在 B 
的 形状 前 面 添加 (1,)， 但 这 么 做 的 话 ， 最 后 的 形状 还 是 不 兼容 : (2,5) 和 (1,2)。 如 果 想 对 
数组 进行 广播 ， 就 必须 手动 在 B 的 后 面 添 加 一 个 维度 ， 使 它们 的 形状 变 为 (2,5) 和 (2,1)， 
这 样 就 可 以 进行 广播 了 。 

在 NumPy 中 ， 可 以 用 np.newaxis 显 式 地 向 B 中 添加 一 个 新 维度 。 接 下 来 看 看 如 何在 
RPKM 标准 化 中 进行 这 种 操作 。 

先 看 一 下 数组 的 维度 。 


print('C_tmp.shape', C_tmp.shape) 
print('L.shape', L.shape) 





































































































C_tmp.shape (20500, 375) 
L.shape (20500,) 


可 以 看 到 ，C_tmp 有 两 个 维度 ， 而 上 只 有 一 个 。 因 此 ， 一 个 额外 的 维度 会 在 广播 过 程 中 添 
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加 到 上 的 前 面 ， 然 后 可 以 得 到 : 

C_tmp.shape (20500, 375) 

L.shape (1, 20500) 
维度 还 是 不 匹配 ! 我 们 要 在 C_tmp 的 第 一 个 维度 上 对 上 进行 广播 ， 因 此 需要 自己 来 调整 L 
的 维度 。 


L = L[:，np.newaxis] # 在 L 的 后 面 添加 一 个 值 为 1 的 维度 
print('C_tmp.shape', C_tmp.shape) 
print('L.shape', L.shape) 








C_tmp.shape (20500, 375) 
L.shape (20500, 1) 


这 样 维度 就 匹配 了 或 者 其 中 一 个 等 于 1， 我 们 可 以 进行 广播 了 。 
# 将 每 一 行 除 以 该 行 基因 的 长 度 (Z) 
C_tmp = C_tmp /上 L 
最 后 ， 还 需要 按照 库容 量 进行 标准 化 。 库 容量 就 是 一 列 的 计数 值 总 和 。 回 忆 一 下 ， 我 们 已 
经 用 以 下 代码 计算 出 了 N: 


N = counts.sum(axis=0) # Sum each column to get total reads per sample 














# 检查 C_tmp 和 NN 的 形状 
print('C_tmp.shape', C_tmp.shape) 
print('N.shape', N.shape) 


C_tmp.shape (20500, 375) 
N.shape (375,) 


一 旦 触发 了 广播 机 制 ， 一 个 额外 的 维度 就 会 被 添加 到 N 的 前 面 。 
N.shape (1, 375) 
维度 是 匹配 的 ， 因 此 我 们 无 须 做 任何 工作 。 但 为 了 更 具 可 读 性 ， 可 以 显 式 地 为 N 添 加 一 个 
新 维度 。 
# 将 每 一 列 除 以 该 列 的 总 计数 (N) 
N = N[np.newaxis, :] 


print('C_tmp.shape', C_tmp.shape) 
print('N.shape', N.shape) 

















C_tmp.shape (20500, 375) 
N.shape (1, 375) 


# 将 每 一 列 除 以 该 列 的 总 计数 (N) 
rpkm_counts = C tmp / N 


我 们 将 这 个 过 程 写成 一 个 国 数 ， 以 便 重 用 。 


def rpkm(counts, lengths): 
""Calculate reads per kilobase transcript per million reads. 





RPKM = (10^9 * C) / (N* L) 
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Where : 

C = Number of reads mapped to a gene 

N = Total mapped reads in the experiment 
L = Exon Length in base pairs for a gene 


Parameters 
counts: array, shape (N_genes, N_samples) 
RNAseq (or similar) count data where columns are individual samples 
and rows are genes. 
lengths: array, shape (N_genes,) 
Gene Lengths in base pairs in the same order 
as the rows in counts. 


Returns 
normed : array, shape (N_genes, N_samples) 
The RPKM normalized counts matrix. 
N = np.sum(counts，axis=0) # 对 每 列 进行 加 总 ， 得 到 每 个 样本 的 总 read 数 
L = Lengths 
C= counts 


normed = 1e9 * C / (N[np.newaxis, :] * L[:, np.newaxis]) 
return(normed) 


counts_rpkm = rpkm(counts, gene_lengths) 


2. 基因 间 的 RPKM 标 准 化 


我 们 看 一 下 RPKM 标准 化 的 实际 效果 。 首 先 需 要 说 明 一 下 ， 以 下 是 表达 


布 ， 








它 是 基因 长 度 的 一 个 函数 ( 见 图 1-12)。 


Log_counts = np.log(counts + 1) 
mean_log_counts = np.mean(log_counts, axis=1) 
Log_gene_Lengths = np.log(gene_lengths) 


with plt.style.context('style/thinner.mplstyle'): 
binned_boxplot(x=log_gene_lengths, y=mean_log_counts) 








average log counts 


| 





64 129 258 519 1042 2094 4206 8449 169713409168481 
gene length (log scale) 





图 1-12:; RPKM 标准 化 前 的 基因 长 度 与 表达 计数 均值 之 间 的 关系 (对 数 标 度 ) 





计数 的 对 数 均值 分 








现在 用 RPKM 标准 化 后 的 值 绘制 同样 的 图 形 。 


Log_counts = np.log(counts_rpkm + 1) 
mean_log_counts = np.mean(log_counts, axis=1) 
Log_gene_Lengths = np.Log(gene_Lengths) 











with plt.style.context('style/thinner.mplstyle'): 
binned_boxplot(x=log_gene_lengths, y=mean_log_counts) 
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从 图 中 可 以 看 出 ， 表 达 计 数 均值 平整 了 一 些 ， 尤 其 对 于 那些 长 度 大 于 3000 个 碱 基 对 的 基 
因 来 说 。( 较 短 的 基因 仍然 表现 出 比较 低 的 表达 水 平一 一 可 能 它们 太 短 了 ，RPKM 方法 在 
统计 上 对 其 没有 什么 效果 。) 


RPKM 标准 化 对 于 比较 不 同 基 因 的 表达 水 平 非常 有 用 。 我 们 已 经 看 到 了 ， 基 因 越 长 ， 其 表 
达 计 数 就 越 高 ， 但 这 并 不 意味 着 表达 水 平实 际 更 高 。 为 了 说 明 这 人 句 话 的 含义 ， 我 们 选择 一 
个 短 基 因 和 一 个 长 基因 ， 比 较 一 下 它们 在 RPKM 标准 化 前 后 的 计数 。 

gene_idxs = np.array([80，186]) 

gene1，gene2 = gene_names[gene_idxs] 


Len1，Len2 = gene_lengths[gene idxs] 
gene_labels = [f'{gene1}, {leni}bp', f'{gene2}, {len2}bp'] 
































Log_counts = list(np.log(counts[gene idxs] + 1)) 
Log_ncounts = list(np.log(counts_rpkm[gene idxs] + 1)) 


ax = class_boxplot(log_counts, 
['raw counts'] * 3, 
labels=gene_labels) 
ax.set_xlabel('Genes') 
ax.set_ylabel('log gene expression counts over all samples'); 


如 果 只 看 原始 计数 ， 似 乎 长 基因 TXNDCS5 比 短 基 因 RPL24 的 表达 水 平 稍 高 一 些 ( 见 图 1-13)。 
但 进行 RPKM 标准 化 后 ， 图 形 就 发 生 了 改变 。 


ax = class_boxplot(log_ncounts, 
['RPKM normalized'] * 3， 
labels=gene_labels) 
ax.set_xlabel('Genes') 
ax.set_ylabel('log RPKM gene expression counts over all samples'); 
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1-13; 比较 RPKM 标准 化 前 两 个 基因 的 表达 水 平 





现在 RPL24 的 表达 水 平 看 起 来 比 TXNDC5 明显 高 出 很 多 ( 见 图 1-14)。 这 是 因为 RPKM 
方法 中 包含 了 对 基因 长 度 的 标准 化 ， 所 以 我 们 可 以 在 不 同 长 度 的 基因 之 间 直 接 进行 比较 。 
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1-14: 比较 RPKM 标准 化 后 两 个 基因 的 表达 水 平 
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1.5 小结 
至 此 ， 我 们 学 习 了 以 下 内 容 : 


。 用 pandas 导入 数据 
。 熟悉 NumPy 的 核心 对 象 类 一 一 N 维 数组 
。 用 强大 的 广播 机 制 使 得 计算 过 程 更 加 优雅 


第 2 章 将 继续 用 同样 的 数据 集 来 实现 一 种 更 加 复杂 的 标准 化 技术 ， 然 后 用 聚 类 技术 预测 皮 
肤 癌 患者 的 死亡 率 。 
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第 2 章 
用 NumPy 和 SciPy 进 行 分 位 数 标准 化 





如 果 一 开始 不 能 理解 空间 


和 


国 的 深刻 奥秘 ， 也 不 要 重头 袁 气 ， 慢 慢 你 就 会 明白 的 。 
Edwin A. Abbott,《 和 平面 国 : 一 个 多 维 的 传奇 故事 》 


本 章 将 继续 分 析 第 1 章 中 的 基因 表达 数据 ， 但 目的 略 有 不 同 : 我 们 想 要 用 每 名 患者 的 基因 

表达 档案 (基因 表达 测量 的 完整 向 量 ) 来 预测 他 们 的 预期 存活 率 。 为 了 使 用 完整 的 档案 ， 

我 们 需要 一 种 比 第 1 章 中 的 RPKM 更 强大 的 标准 化 方法 。 我 们 将 执行 分 位 数 标准 化 ， 这 

是 一 种 可 以 确保 测量 结果 符合 特定 分 布 的 技术 。 这 种 方法 遵从 一 个 严格 的 假设 : 如 果 数 据 

ie 要 的 形状 分 布 ， 就 强制 它 符合 所 需 形状 ! 这 听 起 来 有 点 像 作弊， 但 人 们 已 经 证 
， 在 具体 分 布 影响 不 大 ， 但 总 体 中 值 的 相对 改变 非常 重要 的 情况 下 ， 这 是 一 种 简单 而 有 

， 例如 ， 根 据 Bolstad 及 其 同事 的 研究 ， 这 种 方法 在 从 DNA 微 阵 列 数据 中 发 现 已 

知 表达 水 平 的 工作 中 表现 得 非常 突出 

在 学 习 本 章 的 过 程 中 ， 我 们 将 为 TCGA 计划 的 论文 “Genomic Classification of Cutaneous 

Melanoma” 中 的 图 5A 和 图 5B 制作 一 份 简 化 版 本 。 

在 实现 分 位 数 标准 化 时 ， 我 们 要 有 效 地 用 NumPy 和 SciPy 编写 一 个 快速 、 高 效 且 优 雅 的 函 

数 。 分 位 数 标 准 化 包括 以 下 3 个 步骤 : 

(1) 对 每 列 的 值 进行 排序 

(2) 找 出 每 个 结果 行 的 平均 值 ， 

(3) 用 平均 值 列 的 分 位 数 替换 每 列 的 分 位 数 。 


import numpy as np 
from scipy import stats 




































































def quantile_norm(X): 
'""Normalize the columns of X to each have the same distribution. 


28 


Given an expression matrix (microarray data, read counts，etc) of M genes 
by N samples, quantile normalization ensures all samples have the same 
spread of data (by construction). 


The data across each row are averaged to obtain an average column. Each 
column quantile is replaced with the corresponding quantile of the average 
column. 


Parameters 


X : 2D array of float, shape (M, N) 
The input data, with M rows (genes/features) and N columns (samples). 


Returns 
Xn : 2D array of float, shape (M, N) 
The normalized data. 


# 计算 分 位 数 


quantiles = np.mean(np.sort(X, axis=0), axis=1) 














# 计算 每 列 的 秩 次 。 将 每 个 观测 禁 换 为 其 在 列 中 的 秩 次 ， 最 小 的 观测 替换 为 1， 
# 第 二 小 的 观测 替换 为 2， 以 此 类 推 ， 最 大 的 观测 替换 为 M， 即 行 的 数量 
ranks = np.appLy_aLong_axis(stats.rankdata，0，X) 











# 将 秩 次 转换 为 0~M - 1 的 整数 标号 


rank_indices = ranks.astype(int) - 1 


# 以 秩 次 矩阵 中 的 每 个 秩 次 为 索引 ， 返 回 分 位 数 相 应 位 置 的 值 


Xn = quantiles[rank_indices] 





return(Xn) 


在 实际 操作 中 ， 由 于 基因 表达 计数 数据 之 间 的 巨大 差异 ， 经 常 需要 在 分 位 数 标准 化 前 对 数 
据 进 行 对 数 变换 。 为 此 ， 我 们 编写 了 一 个 辅助 函数 来 进行 对 数 变 换 。 
def quantile_ norm log(X): 

logX = np.log(X + 1) 

logXn = quantiLe_norm(LogX) 

return logXn 


这 两 个 函数 综合 说 明了 使 得 NumPy 威力 巨大 的 多 种 因素 (你 应 该 记得 第 1 章 中 体现 了 前 
三 种 因素 )。 


。 数组 可 以 是 一 维 的 (如 列表 )、 二 维 的 (如 矩阵 )， 也 可 以 是 更 高 维度 的 。 这 使 得 它们 可 
以 表示 多 种 类 型 的 数值 型 数据 。 我 们 的 示例 表示 的 就 是 一 个 二 维 矩 阵 。 

。 数组 可 以 同时 进行 多 个 数值 操作 。 在 quantitLe_norm_tLog 的 第 一 行 中 ， 我 们 在 一 次 调用 
中 就 为 x 的 每 个 值 都 加 了 1 并 取 了 对 数 ， 这 称 为 向 量化 。 

。 数组 可 以 沿 着 轴 进 行 操作 。 在 quanttle- norn 的 第 一 行 中 ， 我 们 为 np.sort 指定 了 axis 
参数 ， 沿 着 每 一 列 对 数据 进行 排序 。 然 后 又 通过 指定 一 个 不 同 的 axis 沿 着 每 一 行 计 算 
数据 的 均值 。 
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。 数组 商定 了 Python 科学 生态 系统 的 基础 。scipy.stats.rankdata 函数 不 是 在 Python 列 
表 上 进行 操作 ， 而 是 在 NumPy 数组 上 。 很 多 Python 科学 库 都 是 这 样 的 。 

。 即使 函数 不 具备 axis= 关键 字 参 数 ， 也 可 以 通过 NumPy 的 appLy_atLong_axits 函数 沿 着 
轴 进 行 操作 。 

。 数组 可 以 通过 花 式 索引 (fancy indexing) 支持 多 种 数据 操作 : Xn = quantiles[ranks]。 
这 可 能 是 NumPy 中 最 难以 理解 的 部 分 ， 但 同时 也 是 最 有 用 的 部 分 之 一 。 接 下 来 将 对 其 
做 进一步 介绍 。 


2.1 获取 数据 


与 第 1 章 一 样 ， 我 们 将 处 理 TCGA 皮肤 癌 RNA 测序 数据 集 。 我 们 的 目标 是 用 皮肤 癌 患 
者 的 RNA 表达 数据 来 预测 他 们 的 死亡 率 。 正 如 前 面 提 过 的 ， 到 本 章 末尾 我 们 将 重新 生成 
TCGA 组 织 的 一 篇 论文 中 的 图 5A 和 图 5B 的 简化 版 本 。 

与 第 1 章 一 样 ， 首 先 要 用 pandas 更 加 轻松 地 读 取 数 据 。 先 将 计数 数据 读 取 到 一 个 pandas 
表格 中 。 


import numpy as np 
import pandas as pd 















































a 











# 导入 TCGA 黑 色素 瘤 数 据 
filename = 'data/counts.txt' 
data_table = pd.read_csv(fiLename，index_coL=0) # 用 pandas 解 析 文 件 





print(data_table.iloc[:5, :5]) 


00624286-41dd-476f-a63b-d2a5f484bb45 TCGA-FS-A17Z0 TCGA-D9-A3Z1 \ 


A1BG 1272.36 452.96 288.06 
A1CF 0.00 0.00 0.00 
A2BP1 0.00 0.00 0.00 
A2LD1 164.38 552.43 201.83 
A2ML1 27.00 0.00 0.00 


02c76d24-f1d2-4029-95b4-8be3bda8fdbe TCGA-EB-AS51B 


A1BO 400.11 420.46 
A1CF 1.00 0.00 
A2BP1 0.00 1.00 
A2LD1 165.12 95.75 
A2ML1 0.00 8.00 








通过 查看 data_table 的 行 与 列 ， 可 以 知道 列 是 样本 ， 行 是 基因 。 现 在 将 计数 数据 放 在 NumPy 
数组 中 。 
# 包含 每 个 独立 样本 中 的 每 个 基因 表达 计数 的 二 维 数组 


counts = data_table.values 


2.2 ”独立 样本 间 的 基因 表达 分 布 差异 


现在 ,我 们 通过 绘制 每 个 独立 样本 的 计数 分 布 来 感受 一 下 计数 数据 。 我 们 将 用 高 斯 核 函 数 
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对 数据 的 波动 进行 平 请 处 理 ， 以 更 好 地 认识 数据 的 整体 形状 。 
像 往常 一 样 ， 先 设 定 绘图 风格 。 

# 使 图 表 出 现在 文本 中 ， 定 制 绘图 风格 

%matplotlib inline 


import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 


接着 编写 一 个 绘图 函数 ， 用 SciPy 的 gaussian_kde 函数 绘制 出 平滑 的 数据 分 布 。 


from scipy import stats 
































def plot _ col_ density(data): 
"""For each column, produce a density plot over all rows. 


# 用 高 斯 平滑 来 估计 密度 
density_per_coL = [stats.gaussian_kde(coL) for col in data.T] 
x = np.linspace(np.min(data), np.max(data), 100) 


fig, ax = plt.subplots() 

for density in density_per_col: 
ax.plot(x, density(x)) 

ax.set_xlabel('Data values (per coLumn) ') 

ax.set_ylabel('Density') 


现在 可 以 用 这 个 函数 绘制 原始 数据 的 分 布 了 ， 先 不 进行 任何 标准 化 。 绘 
# 标准 化 前 


Log_counts = np.log(counts + 1) 
plot_col_density(log_counts) 














Ea 








如 下 所 示 。 
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可 以 看 出 ， 尽 管 这 些 计数 分 布 大 体 上 相似 ， 但 有 些 独立 样本 的 分 布 形状 非常 漂亮 ， 有 些 则 
牌 七 扭 八 。 实 际 上 ， 考 虑 到 这 张 图 使 用 的 是 对 数 标 度 ， 这 些 分 布 的 峰值 位 置 实际 相差 好 几 
个 数量 级 ! 在 本 章 后 面 分 析 计 数 数据 时 ， 我 们 会 假设 基因 表达 中 的 变化 是 由 样本 间 的 生物 
学 差别 引起 的 。 但 像 图 中 这 样 明显 的 分 布 变动 则 表明 差异 是 由 技术 手段 造成 的 ， 也 就 是 
说 ， 基 因 表 达 中 的 变化 很 可 能 是 由 样本 处 理 方式 的 差异 造成 的 ， 而 不 是 因为 样本 在 生物 学 




































































上 有 差别 。 因 此 ， 我 们 将 对 其 进行 标准 化 ， 以 消除 样本 间 的 这 些 整体 差异 。 











正如 本 章 开 头 所 说 ， 为 了 进行 这 种 标准 化 ， 需 要 执行 分 位 数 标准 化 。 分 位 数 标准 化 的 思想 
是 ， 所 有 样本 都 应 该 具有 相似 的 分 布 ， 因 此 形状 上 的 任何 差别 都 应 归结 于 技术 差异 。 更 正 
式 的 表述 是 ， 给 定 一 个 形状 为 (n_genes，n_samples) 的 表达 和 矩阵 ( 微 阵 列 数据 、read 计数 
等 )， 分 位 数 标准 化 可 以 通过 数据 构建 确保 所 有 样本 ( 列 ) 具有 相同 的 数据 分 布 。 

















可 以 用 NumPy 和 SciPy 非常 轻松 、 高 效 地 实现 分 位 数 标准 化 。 简 要 概括 一 下 ， 
章 开 头 介绍 过 的 分 位 数 标 准 化 的 实现 代码 。 
假设 兰 是 我 们 的 输入 矩阵 。 


import numpy as np 
from scipy import stats 





def quantile_norm(X): 
"""Normalize the columns of X to each have the same distribution. 


Given an expression matrix (microarray data, read counts, etc.) of 


以 下 就 是 本 


M genes 


by N samples, quantile normalization ensures all samples have the same 


spread of data (by construction). 


The data across each row are averaged to obtain an average column. 
column quantile is replaced with the corresponding quantile of the 
column. 


Parameters 


X : 2D array of float, shape (M, N) 


Each 
average 


The input data, with M rows (genes/features) and N columns (samples). 


Returns 


Xn : 2D array of float, shape (M, N) 
The normalized data. 


# 计算 分 位 数 


quantiles = np.mean(np.sort(X, axis=0), axis=1) 





# 计算 每 列 的 秩 次 ， 将 每 个 观测 禁 换 为 其 在 列 中 的 秩 次 : 

# 最 小 的 观测 替换 为 1， 第 二 小 的 观测 替换 为 2， 以 此 类 推 ， 
# 最 大 的 观测 替换 为 M， 即 行 的 数量 

ranks = np.apply_along_axis(stats.rankdata, 0, X) 








# 将 秩 次 转换 为 0~M -1 的 整数 标号 


rank_indices = ranks.astype(int) - 1 





# 以 秩 次 矩阵 中 的 每 个 秩 次 为 索引 ， 返 回 分 位 数 相应 位 置 的 值 


Xn = quantiles[rank_indices] 





return(Xn) 


def quantiLe_norm_ log(X): 
logX = np.log(X + 1) 
logXn = quantile_ norm(logX) 
return logXn 
现在 我 们 看 一 下 分 位 数 标准 化 后 的 分 布 是 什么 形状 。 效 果 如 下 图 所 示 。 
# 标准 化 后 


log_counts_normalized = quantiLe_norm_Log(counts) 


plot_col_density(log_counts_normalized) 
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Data values (per column) 











不 出 所 料 ， 这 些 分 布 现在 看 上 去 几乎 完全 一 致 ! [分 布 左 尾 上 的 差别 是 由 各 列 数据 中 低 计数 
值 (如 0、1、2， 等 等 ) 的 不 同 数量 造成 的 。] 


我 们 已 经 对 计数 数据 进行 了 标准 化 ， 可 以 用 基因 表达 数据 来 预测 患者 的 情况 了 。 


2.3 ”计数 数据 的 双 回 聚 类 


对 样本 进行 聚 类 可 以 告诉 我 们 哪些 样本 具有 相似 的 基因 表达 档案 ， 这 表明 了 这 些 样本 在 其 
他 方面 也 可 能 具有 相似 的 特性 。 对 数据 进行 标准 化 后 ， 就 可 以 对 表达 秆 阵 的 基因 ( 行 ) 和 
样本 ( 列 ) 进行 聚 类 。 对 行进 行 聚 类 可 以 告诉 我 们 哪些 基因 的 表达 值 是 有 联系 的 ， 这 表明 
它们 在 本 次 研究 阶段 中 是 共同 工作 的 。 双 向 聚 类 意味 着 同时 在 数据 的 行 和 列 上 进行 聚 类 。 
通过 对 行进 行 聚 类 ， 可 以 找 出 那些 共同 工作 的 基因 ， 通过 对 列 进 行 聚 类 ， 可 以 找 出 哪些 样 
本 是 相似 的 。 
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因为 聚 类 是 一 项 开销 巨大 的 操作 ， 所 以 我 们 将 分 析 限 制 在 1500 个 差异 最 大 的 基因 上 ， 
些 基 因 可 以 代表 任意 维度 上 的 绝 大 多 数 相关 性 信号 。 


def most_variable_rows(data, *, Nn=1500): 
"""Subset data to the n most variable rows 





[ey 


In this case, we want the n most variable genes. 


Parameters 


data : 2D array of float 
The data to be subset 
n : int, optional 
Number of rows to return. 


Returns 


variable data : 2D array of float 
The `n`” rows of ‘data’ that exhibit the most variance. 


# 沿 列 轴 计 算 方 差 

rowvar = np.var(data, axis=1) 

# 得 到 排序 后 的 行 号 (升序 ) ， 取 最 后 n 个 
sort_indices = np.argsort(rowvar)[-n:] 
# 用 作 数 据 索 引 

variable data = data[sort indices, :] 
return variable_data 


接 下 来 要 用 一 个 函数 对 数据 进行 双向 聚 类 。 通 常 来 说 ， 你 需要 用 scikit-learn 库 中 的 一 个 复 
杂 聚 类 算法 来 进行 聚 类 。 就 我 们 的 示例 而 言 ， 为 了 简单 和 易于 展示 ， 我 们 想 要 使 用 层次 聚 
类 。SciPy 库 中 正好 有 一 个 非常 完美 的 层次 聚 类 模块 ， 但 你 需要 仔细 思考 一 下 才能 理解 其 
接口 。 
提示 一 下 ， 层 次 聚 类 是 一 种 用 逐渐 形成 的 徐 对 观测 进行 分 组 的 方法 。 最 初 ， 每 个 观测 本 身 
都 是 一 个 艇 。 然 后 ， 距 离 最 近 的 两 个 徐 会 合并 ， 并 不 断 进行 这 样 的 合并 ， 直 至 所 有 观测 都 
企 一 个 徐 中 。 这 种 连续 合并 形成 了 一 棵 合并 树 。 通 过 将 树 修 剪 成 特定 高 度 ， 可 以 得 到 一 个 
粒度 更 细 或 更 粗 的 观测 聚 类 。 
scipy.cluster.hierarchy 中 的 Linkage 函数 可 以 对 和 矩阵 的 行 执行 层次 聚 类 ， 它 用 特定 的 度 
量 方式 (如 欧 氏 距离 、 曼 哈 顿 距离 等 ) 和 测 距 方 法 (如 两 个 徐 中 所 有 观测 间 的 平均 距离 ) 
来 测量 两 个 复 之 间 的 距离 。 
它 以 “联系 矩阵 ”的 方式 返回 合并 树 ， 这 个 矩阵 包含 了 每 次 的 合并 操作 以 及 合并 时 计算 出 
的 距离 ， 还 有 结果 得 中 的 观测 数量 。Linkage 函数 的 文档 中 有 以 下 内 容 : 

一 个 标号 小 于 妹 的 徐 对 应 于 元 个 初始 观测 中 的 一 个 。 丝 Z[1i，6] 和 7Z[i，1] 之 间 

的 距离 由 Z[i,，2] 给 出 。 第 四 个 值 Z[L，3] 表示 新 形成 的 徐 中 的 初始 观测 的 数量 。 


哇 ! 信息 量 好 大 ， 让 我 们 立即 行动 起 来 ， 希 望 你 能 尽快 掌握 代码 中 的 诀 窑 。 首 先 要 定义 一 
个 国 数 bicluster， 该 函数 既 对 矩阵 中 的 行 也 对 矩阵 中 的 列 进行 聚 类 。 






































from scipy.cluster.hierarchy import linkage 


def bicluster(data, linkage_ method='average', distance metric='correlation'): 


"""Cluster the rows and the columns of a matrix. 


Parameters 
data : 2D ndarray 
The input data to bicluster. 
Linkage_method : string, optional 
Method to be passed to ‘linkage'. 
distance_ metric : string, optional 


Distance metric to use for clustering. See the documentation 


for “ “scipy.spatial.distance.pdist*. for valid me 


Returns 
y_rows : linkage matrix 

The clustering of the rows of the input data. 
y_cols : linkage matrix 

The clustering of the cols of the input data. 


trics. 


y_rows = linkage(data, method=linkage_method, metric=distance metric) 
y_cols = linkage(data.T, method=linkage method, metric=distance metric) 


return y_rows, y_cols 


小 茉 一 碟 : 我 们 只 是 对 输入 矩阵 调用 了 Linkage 函数 ， 并 对 和 矩阵 进 





列 就 变 成 了 行 ， 行 变 成 了 列 。 


2.4 簇 的 可 视 化 





行 了 转 置 ， 这 样 矩 阵 的 





接着 我 们 定义 一 个 函数 对 聚 类 结果 进行 可 视 化 。 我 们 将 重新 排列 输入 数据 的 行 和 列 ， 使 相 
| 的 合并 树 ， 显 示 哪 
些 观测 属于 哪个 答 。 合 并 树 以 树 状 图 的 样式 呈现 ,分支 长 度 表示 观测 间 的 相似 程度 (长度 








似 的 行 排 在 一 起 ， 相似 的 列 也 排 在 一 起 。 此 外 ， 我 们 还 将 表示 











越 短 表 示 越 相似 )。 








时 行 和 用 





主意 ， 以 下 程序 中 的 很 多 参数 都 是 用 硬 编码 的 方式 写成 的 。 绘 图 时 很 难 i 





1 的 设计 经 常 需要 目测 出 合适 的 比例 。 


from scipy.cluster.hierarchy import dendrogram, leaves_1i 


def clear_spines(axes): 
for loc in ['left', 'right', 'top', 'bottom']: 
axes.spines[loc].set visible(False) 
axes.set xticks([]) 
axes.set_yticks([]) 


def pLot_bicLuster(data，row_Linkage，coL_Linkage， 
row_nclusters=10, col_nclusters=3): 


st 





避免 这 种 方式 ， 而 





用 NumPy 和 SciPy 进 行 分 位 数 标准 化 | 35 


"""Perform a biclustering, plot a heatmap with dendrograms on each axis. 


Parameters 
data : array of float, shape (M, N) 
The input data to bicluster. 
row_linkage : array, shape (M-1, 4) 
The linkage matrix for the rows of ‘data'. 
col_linkage : array, shape (N-1, 4) 
The Linkage matrix for the columns of ‘data'. 
row_nclusters, col_nclusters : int, optional 
Number of clusters for rows and columns. 


fig = plt.figure(figsize=(4.8, 4.8)) 


计算 并 绘制 行 方向 的 树 状 区 
add_axes 接 受 一 个 “矩形” 输入， 癌 基 础 图 中 添加 一 个 子 攻 
可 以 认为 基础 图 每 边 的 边 长 都 是 1， 左 下 角 位 于 (0，0) 
传递 给 add_axes 的 参数 是 子 图 的 相对 尺寸 ， 分 别 为 左 侧 、 底 部 、 宽 度 和 高 度 
因此 ， 为 了 画 出 左 侧 的 树 状 图 〈 行 方向 ) ， 我 们 要 创建 一 个 矩形 ， 与 基础 图 相 比 ， 
其 左下 角 位 于 (0.09，0.1)， 宽 度 是 0.2， 高 度 是 0.6 
ax1 = fig.add_axes([0.09, 0.1, 0.2, 0.6]) 
# 对 于 给 定数 目的 符 ， 通 过 查看 联系 矩阵 中 的 相应 距离 标注 ， 可 以 得 到 一 个 联系 树 的 剪 枝 版 本 
threshold_r = (row_linkage[-row_nclusters, 2] + 

row_linkage[-row_nclusters+1, 2]) /2 
with plt.rc_context({'lines.linewidth': 0.75}): 

dendrogram(row_linkage, orientation='left', 

color_threshold=threshold_r, ax=ax1) 

clear_spines(ax1) 
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# 计算 并 绘制 列 方向 的 树 状 图 

# 参见 上 面 对 add_axes 参 数 的 解释 

ax2 = fig.add axes([0.3, 0.71, 0.6, 0.2]) 

threshold_c = (col_linkage[-col_nclusters, 2] + 

col_linkage[-col_nclusters+1, 2]) /2 

with plt.rc_context({'lines.Tlinewidth': 0.75}): 
dendrogram(col_linkage, color_threshold=threshold_c, ax=ax2) 

clear_spines(ax2) 














# 绘制 数据 热 图 
ax = fig.add_axes([0.3, 0.1, 0.6, 0.6]) 


# 按照 树 状 图 的 叶子 节点 对 数据 排序 
idx_rows = leaves_list(row_linkage) 
data = data[idx_rows, :] 

idx_cols = leaves_list(col_linkage) 
data = data[:, idx_cols] 














im = ax.imshow(data, aspect='auto', origin='lower', cmap='YLGnBu_r') 
clear_spines(ax) 


# 坐标 轴 标 签 
ax.set xlabel('Samples') 
ax.set_ylabel('Genes', labelpad=125) 





# 绘制 图 例 
axcolor = fig.add_ axes([0.91, 0.1, 0.02, 0.6]) 
plt.colorbar(im, cax=axcolor) 





# 显示 图 形 
plt.show() 


现在 我 们 将 这 些 函 数 应 用 于 标准 化 后 的 计数 和 矩阵， 以 显示 行 和 列 的 聚 类 〈 见 图 2-1)。 


counts_log = np.log(counts + 1) 
counts_var = most_variable_rows(counts_log, n=1500) 
yr, yc = bicluster(counts_var, linkage_method='ward', 
distance_metric='euclidean') 
with plt.style.context('style/thinner.mplstyle'): 
plot_bicluster(counts_var, yr, yc) 
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这 张 热 图 展示 了 所 有 样本 和 基因 间 的 基因 表达 水 平 。 颜 色 表 示 基 因 表达 水 平 。 行 和 列 按照 我 
一 们 的 聚 类 结 二 果 进行 分 组 。 我 们 可 以 沿 着 y 轴 查看 基因 艇 ， 在 x 轴 上 方 查看 样本 禾 


2.5 预测 幸存 者 


我 们 可 以 看 到 ， 样 本 数据 自然 地 落 在 了 至 少 两 个 竹中 ， 也 可 能 是 三 个 。 这 些 禾 有 实际 意义 
吗 ? 为 了 回答 这 个 问题 ， 我 们 需要 使 用 患者 数据 ， 可 以 从 上 述 论文 的 数据 仓库 中 得 到 这 些 
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数据 。 进 行 一 些 预 处 理 后 ， 可 以 得 到 一 张 患者 表格 ， 其 中 包含 了 每 名 患者 的 存活 信息 。 然 
后 我 们 可 以 将 这 些 信 息 与 计数 的 聚 类 结果 进行 匹配 ， 措 清楚 是 否 可 以 用 患者 的 基 
预测 他 们 的 病理 学 差异 。 

patients = pd.read_csv('data/patients.csv', index_col=0) 

patients.head() 

紫外 线 特征 初始 簇 黑色 素 瘤 患者 的 存活 时 间 黑色 素 瘤 导致 的 死亡 

TCGA-BF-AlPU ”紫外 线 特征 keratin NaN NaN 
TCGA-BF-AlPY ”紫外线 特征 keratin 13.0 0.0 
TCGA-BF-AlIPX ”紫外线 特 征 keratin NaN NaN 
TCGA-BF-Al1PZ 紫外线 特征 keratin NaN NaN 
TCGA-BF-A1Q0 ” 非 紫 外 线 特征 immune 17.0 0.0 
我 们 拥有 每 位 患者 ( 行 ) 的 以 下 信息 。 





. 可 外线 特征 








紫外 线 可 能 会 引发 某 种 基因 突变 。 通 过 检查 突变 特征 ， 研 究 者 可 以 推断 出 紫 


ed 
。 初始 徐 





外 线 是 否 可 


论文 中 用 基因 表达 数据 将 患者 分 成 了 多 个 得 。 这 些 徐 按照 自 中 典型 的 基因 类 型 进行 分 
类 。 主 要 的 徐 有 “immune”(n = 168; 51%)、 i (n= 102; 31%) 和 “MITF-low” 


(n=59; 18%)。 


。 黑色 素 瘤 患者 的 存活 时 间 
患者 存活 的 天 数 。 


。 黑色 素 瘤 导 致 的 死亡 


























如 果 患 者 因 黑 色素 瘤 死亡 ， 则 值 为 1， 如 果 患 者 依然 存活 或 因 其 他 原因 死记 ， 则 值 为 0。 












































接 下 来 我 们 要 为 聚 类 生成 的 每 个 患者 组 绘制 一 条 存活 曲线 。 这 些 曲线 表示 经 过 一 段 时 间 后 











仍然 存活 的 患者 比例 。 注 意 ， 有 些 数据 是 右 删 失 的 (right-censored) ， 也 就 是 说 ， 








况 下 ， 我 们 不 知道 患者 的 确切 死亡 时 间 ， 或 者 患者 可 能 因 与 黑色 素 瘤 无 关 的 原 








在 某 些 情 
因 死 亡 。 在 





存活 曲线 的 时 间 段 内 ， 我 们 认为 这 些 患者 仍然 是 “存活 的 ”， 但 更 加 精密 的 分 析 应 该 尽量 


估计 出 可 能 的 死亡 时 间 。 




















为 了 根据 存活 时 间 得 出 存活 曲线 ， 我 们 需要 先 创 建 一 个 步 长 函数 ， 每 次 减少 11n， 这 里 的 n 








是 组 中 患者 的 数量 。 然 后 将 这 个 函数 与 无 删 失 存 活 时 间 进 行 匹配 。 


def survival_distribution function(lifetimes, right_censored=None): 
"""Return the survival distribution function of a set of lifetimes. 


Parameters 

lifetimes : array of float or int 

The observed lifetimes of a population. These must be non-negative. 
right_censored : array of bool, same shape as ‘lifetimes. 


A value of ‘True. here indicates that this lifetime Was not observed. 





Values of `np.nan” in “lifetimes. are also considered to be 
right-censored. 


Returns 

sorted_ lifetimes : array of float 
The 

sdf : array of float 
Valuyes starting at 1 and progressively decreasing, one level 
for each observation in ‘lifetimes.. 


Examples 


In this example, of a population of four, two die at time 1, a 
third dies at time 2, and a final individual dies at an unknown 
time. (Hence, ‘np.nan...) 


>>> lifetimes = np.array([2, 1, 1, np.nan]) 
>>> survival_distribution function(lifetimes) 
(array([ 0., 1., 1., 2.]), array([ 1. , 0.75, 0.5 ，0.25])) 
n_obs = len(lifetimes) 
rc = np.isnan(lifetimes) 
if right_censored is not None: 
rc |= right_censored 
observed = lifetimes[~rc] 
xs = np.concatenate( ([0], np.sort(observed)) ) 
ys = np.linspace(1, 0, n_obs + 1) 
ys = ys[:Len(xs)] 
return xs, ys 


既然 可 以 轻松 地 根据 存活 数据 得 出 存活 曲线 ， 那 么 就 可 以 绘制 出 曲线 。 我 们 再 编写 一 个 函 
数 ， 按 照 徐 标识 对 存活 时 间 分 组 ， 并 用 不 同 的 折线 绘制 出 每 个 组 。 
def plot _ cluster_survival_curves(clusters, sample names, patients, 


censor=True): 
"""PLot the survival data from a set of sample clusters. 


























Parameters 

clusters : array of int or categorical pd.Series 
The cluster identity of each sample, encoded as a simple int 
or as a pandas categorical variable. 

sample names : list of string 
The name corresponding to each sample. Must be the same length 
as ‘clusters. 

patients : pandas.DataFrame 
The DataFrame containing suyrvival information for each patient. 
The indices of this DataFrame must correspond to the 
“sample_names'. Samples not represented in this list will be 
ignored. 

censor : bool, optional 
If ‘True’, use ‘patients['melanoma-dead']. to right-censor the 
survival data. 
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fig, ax = plt.subplots() 
if type(clusters) == np.ndarray: 
cluster_ids = np.unique(clusters) 
cluster_names = ['cluster {}'.format(i) for i in cluster_ids] 
elif type(CLusters) == pd.Series: 
cluster_ids = clusters.cat.categories 
cluster_names = list(cluster_ids) 
n_CLusters = len(cluster_ids) 
for c in cluster_ids: 
clust_samples = np.flatnonzero(clusters == C) 
# 去 除 不 在 存活 数据 中 的 患者 


clust_samples = [sample names[i] for i in clust_samples 








if sample names[i] in patients.index] 


patient_cluster = patients.Loc[cLust_sampLes] 
survival_ times = patient_cluster['melanoma-survival-time'].values 
if censor: 


censored = ~patient_cluster['melanoma-dead'].values.astype(bool) 


else: 


censored = None 


stimes, sfracs = survival_ distribution function(survival_ times, 


censored) 


ax.plot(stimes / 365, sfracs) 


ax.set xlabel('survival time (years)') 
ax.set_ylabel('fraction alive') 
ax.Legend(CLuster_names) 


现在 我 们 可 以 用 fcluster 函数 得 到 样本 (计数 数据 中 的 列 ) 的 簇 标识 ， 并 分 别 绘制 每 条 存 
活 曲 线 。fcluster 函数 接受 一 个 联系 矩阵 (如 linkage 函数 的 返回 值 ) 和 一 个 国 值 ， 并 返 

















回复 标识 。 很 3 





























全 事先 确定 这 个 阔 值 应 该 多 大 ， 但 通过 检查 联系 矩阵 中 的 距离 ， 我 们 可 以 为 











固定 数量 的 簇 选 择 一 个 合适 的 闵 值 。 


from scipy.cluster.hierarchy import fcluster 
n_CLusters = 3 
threshold_distance = (yc[-n_clusters, 2] + yc[-n_clusters+1, 2]) /2 


clusters = 


fcluster(yc, threshold distance, 'distance') 


plot_cluster_survival_curves(clusters, data_table.columns, patients) 


基因 表达 档案 的 聚 类 似乎 识别 出 了 一 种 黑色 素 瘤 的 高 度 危 险 的 子 类 型 ( 复 2)， 如 图 2-2 所 
示 。TCGA 的 后 续 研究 通过 更 强 有 力 的 聚 类 技术 和 统计 检验 为 这 项 发 现 提供 了 支持 。 这 只 
是 关于 黑色 素 瘤 的 最 新 研究 ， 其 他 研究 还 识别 出 了 白血病 ( 血 癌 )、 上 肠 癌 等 更 多 癌症 的 子 
类 型 。 虽 然 上 述 聚 类 技术 非常 不 稳定 ， 但 还 有 很 多 其 他 更 加 强大 的 方法 可 以 用 于 研究 这 个 
数据 集 和 其 他 类 似 的 数据 集 。。 

















注 1: The Cancer Genome Atlas Network. Genomic classification of cutaneous melanoma [J]. Cell, 2015, 7(161): 


1681-1696. 
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图 2-2: 用 基因 表达 数据 得 到 的 患者 簇 对 应 的 存活 曲线 


2.5.1 进一步 工作 : 使 用 TCGA 患 者 簇 


我 们 的 聚 类 结果 在 预测 存活 率 时 会 比 论文 中 的 矮 表 现 得 更 好 吗 ? 使 用 紫外 线 特 征 会 怎么 
样 ? 分 别 用 患者 数据 中 的 初始 簇 列 和 紫外 线 特征 列 绘制 存活 曲线 。 与 我 们 的 签 相 比 ， 它 们 
的 效果 如 何 ? 


2.5.2 ”进一步 工作 : 重新 生成 TCGA 簇 
我 们 留 给 你 的 练习 是 ， 实 现 这 篇 论文 ”中 描述 的 方法 。 


(1) 对 聚 类 样本 的 基因 使 用 自助 抽样 (有 放 回 随机 抽样 )。 

(2) 为 每 个 样本 生成 一 个 层次 聚 类 。 

(3) 在 一 个 形状 为 (n_samples，n_samples) 的 矩阵 中 ， 保 存 一 个 样本 对 一 起 出 现在 自助 聚 类 
中 的 次 数 。 

(4) 对 结果 矩阵 执行 层次 聚 类 。 

这 样 可 以 识别 出 频繁 在 聚 类 中 同时 出 现 的 样本 组 ， 不 受 基因 选择 的 影响 。 因 此 ， 可 以 认为 

这 些 样本 是 健壮 聚集 的 徐 











— 























提示 
用 np.random.choice 和 replacement=True 创建 行 标号 的 自助 抽样 。 














注 2: The Cancer Genome Atlas Network. Genomic classification of cutaneous melanoma [J]. Cell, 2015, 7(161): 
1681-1696. 
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第 3 章 





用 ndimage 实 现 图 像 区 域 网 络 


老虎 ! 老虎 ! 黑夜 的 森林 中 
燃烧 着 的 煌 煌 的 火光 ， 
是 怎样 的 神 手 或 天 眼 
造 出 了 你 这 样 的 威武 堂堂 ? 

















进一步 讲 ， 在 处 理 图 像 时 ， 我 们 要 人 处理 的 对 象 经 常 比 单个 
中 ， 天 空 、 土 地 、 树 木 和 岩石 都 包括 多 个 像素 。 用 于 表示 这 种 图 
域 邻 接 图 (RAG，region adjacency graph) 。 其 节点 保存 了 图 

















一 一 威廉 布 菜 克 ,《 虎 》 


你 可 能 知道 数字 图 像 是 由 像素 组 成 的 。 一 般 来 说 ， 不 应 该 将 像素 看 作 小 方块 ， 而 应 该 将 其 
看 作 在 规则 网 格 上 测量 的 光 信号 的 点 采样 。， 








色素 大 得 多 。 在 一 幅 风 景 图 像 
像 的 常见 数据 结构 称 为 区 























像 每 个 区 域 的 属性 ， 其 链接 则 


保存 了 各 个 区 域 间 的 空间 联系 。 在 输入 图 像 中 ， 只 要 两 个 区 域 互 相 接触 ， 那 么 它们 所 对 应 





的 两 个 节点 间 就 有 链接 。 


构建 这 样 的 数据 结构 是 一 项 非常 复杂 的 工作 。 若 图 像 不 是 二 维 的 ， 而 是 三 维 甚至 四 维 的 ， 
那 就 更 加 困难 了 。 这 种 情况 在 显微镜 技术 、 材 料 科学 和 气候 学 等 领域 非常 常见 。 但 本 章 将 
向 你 展示 如 何 使 用 NetworkX (一 个 用 于 分 析 








(SciPy 中 的 N 维 图 像 处 理 





E 子 模块 ) 的 过 滤器 ， 


import networkx as nx 


import numpy as np 


from scipy import ndimage as ndi 


def add_edge _ filter(values, graph): 

















只 月 


图 像 和 网 络 的 Python 库 ) 和 一 个 来 自 ndimage 


寥寥 儿 行 代码 就 能 生成 一 个 RAG。 


注 1: 参见 Alvy Ray Smith 的 技术 笔记 “A Pixel Is Not A Little Square”，1995 稀 
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E7 月 17 日 。 





center = values[len(values) // 2] 
for neighbor in values: 


if neighbor != center and not graph.has_edge(center, neighbor): 
graph.add_edge(center, neighbor) 
return 0.0 


def build_ rag(labels, image): 
g = nx.Graph() 
footprint = ndi.generate binary_structure(labels.ndim, connectivity=1) 
= Nndi.generic filter(labels, add edge filter, footprint=footprint, 
mode='nearest', extra_arguments=(g,)) 


return g 





本 书 的 由 来 
(来 自 胡 安 的 笔记 。) 


应 该 强调 一 下 本 章 ， 因 为 正 是 本 章 激 发 了 我 们 撰写 此 书 的 热情 。 这 段 代码 是 Vighnesh 
Birodkar 在 本 科 阶 段 参 加 2014 年 的 Google 编程 夏令 营 时 编写 的 。 当 看 到 这 段 代码 时 ， 
我 真是 佩服 得 五 体 投 地 。 就 本 书 而 言 ， 它 涉及 了 Python 科学 计算 的 方方面面 。 学 习 完 
本 章 后 ， 你 应 该 不 止 能 处 理 一 维 列表 和 二 维 表 格 ， 还 能 够 完成 任何 维度 的 数组 操作 。 
除 此 之 外 ， 你 还 应 该 能 理解 图 像 过 滤 和 网 络 处 理 的 基本 知识 。 














本 章 包 括 以 下 几 项 内 容 : 将 图 像 表 示 为 NumPy 数组 、 用 scipy.ndimage 过 滤 图 像 ， 以 及 用 
NetworkX 库 在 图 形 (网 络 ) 中 建立 图 像 区 域 。 我 们 将 逐次 介绍 这 些 内 容 。 


3.1 图 像 就 是 NumPy 数 组 


上 一 章 中 介绍 过 ，NumPy 数组 不 但 可 以 有 效 地 表示 表格 数据 ， 还 能 非常 方便 地 执行 各 种 计 
算 。 你 将 在 本 章 中 看 到 ， 数 组 在 表示 图 像 方面 同样 是 行家 里 手 。 


以 下 代码 展示 了 如 何 仅 用 NumPy 创建 一 幅 白 噪声 图 像 ， 并 用 Matplotlib 将 其 显示 出 来 。 

首先 ， 导 入 所 需 的 包 ， 然 后 用 IPython 神奇 的 matplotlib inline 命令 将 图 像 显示 在 代码 

下 面 。 
# 使 图 像 显 示 在 行 中 ， 定 制 绘图 风格 
%matplotlib inline 


import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 


然后 “制造 一 些 噪声 ” ， 并 将 其 显示 为 一 幅 图 像 。 


import numpy as np 
random_image = np.random.rand(500, 500) 
plt.imshow(random image); 


imshow 函数 可 以 将 Numpy 数组 显示 为 一 幅 图 像 。 
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反之 亦 然 : 可 以 将 一 幅 图 像 看 作 一 个 NumPy 数组 。 在 这 种 示例 中 ， 要 使 用 scikit-image 
库 ， 它 是 一 个 建立 在 NumPy 和 SciPy 基础 之 上 的 图 像 处 理工 具 集合 。 

以 下 是 一 幅 来 自 scikit-image 库 的 PNG 图 像 。 这 是 一 幅 黑 白 图 像 (有 了 时 称 为 “ 灰 度 ”)， 其 
中 是 一 些 收藏 在 布鲁克 林 博 物 馆 的 庞 贝 城 的 古 罗马 钱币 。 















































下 面 是 通过 scikit-image 加 载 的 钱币 图 像 。 


from skimage import io 

url_coins = ('https://raw.githubusercontent.com/scikit-image/scikit-image/' 
'v0O.10.1/skimage/data/coins.png') 

coins = io.imread(url_coins) 

print("Type:", type(coins), "Shape:", coins.shape, "Data type:", coins.dtype) 

plt.imshow(coins); 


Type: <class 'numpy.ndarray'> Shape: (303, 384) Data type: uint8 
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灰 度 图 像 可 以 表示 为 二 维 数 组 ， 每 个 数组 元 素 包 含 相应 位 置 上 的 灰 度 强度 。 因 此 ， 图 像 就 
是 NumPy 数组 。 
彩色 图 像 是 三 维 数组 ， 其 中 前 两 个 维度 表示 图 像 的 空间 位 置 ， 最 后 一 个 维度 表示 颜色 通 
道 ， 典 型 的 就 是 红 、 绿 、 蓝 这 三 种 可 以 相 加 的 基本 颜色 。 为 了 展示 如 何 使 用 这 些 维度 ， 我 
们 用 宇航 员 艾 琳 * 柯林斯 的 照片 做 一 下 示范 。 

url_astronaut = ('https://raw.githubusercontent.com/scikit-image/scikit-image/' 

'master/skimage/data/astronaut.png') 
astro = io.imread(url_astronaut) 


print("Type:", type(astro), "Shape:", astro.shape, "Data type:", astro.dtype) 
plt.imshow(astro); 





Type: <class 'numpy.ndarray'> Shape: (512, 512, 3) Data type: uint8 








用 ndimage 实 现 图 像 区 域 网 络 | 45 











0 100 200 

















图 像 加 上 一 个 绿色 方块 。 


astro_sq = np.copy(astro) 
astro_sq[50:100，50:100] = [0, 255, 0] # 红 、 
plt.imshow(astro_sq); 




















图 像 就 是 NumPy 数组 。 搞 清楚 这 一 点 后 ， 可 以 用 简单 的 NumPy 切片 操作 非常 轻松 地 








另 一 种 方式 是 使 用 布尔 型 遮 罩 (mask)， 这 是 一 个 值 为 True 或 False 的 数组 。 第 2 章 中 使 用 
过 这 种 方式 来 选择 表格 中 的 行 。 在 这 个 示例 中 ， 可 以 用 与 图 像 形 状 相同 的 数组 来 选择 像素 。 





astro_sq = np.copy(astro) 

sq_mask = np.zeros(astro.shape[:2], bool) 
sq_mask[50:100, 50:100] = True 
astro_sq[sq_mask] = [0, 255, 0] 
plt.imshow(astro_sq); 
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练习 : 为 图 像 覆 盖 一 个 网 格 











我 们 刚刚 学 会 了 如 何 选 择 一 个 方块 区 域 并 将 其 涂 为 绿色 ， 你 能 将 这 个 操作 扩展 到 其 他 形状 
和 颜色 吗 ? 创建 一 个 函数 ， 在 彩色 图 像 上 画 出 一 个 蓝 色 网 格 ， 并 将 其 应 用 到 艾 琳 .柯林斯 
的 照片 上 。 你 的 函数 应 该 接受 两 个 参数 : 输入 图 像 和 网 格 间距 。 你 可 以 用 以 下 模板 着 手 编 











写 函 数 。 


def overlay_grid(image, spacing=128): 


"""Return an image with a grid overlay, using the provided spacing. 


Parameters 
image : array, shape (M, N, 3) 
The input image. 
spacing : int 
The spacing between the grid lines. 


Returns 


image_gridded : array, shape (M, N, 3) 
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The original image with a blue grid superimposed . 


image_gridded = image.copy() 
pass # 用 你 的 代码 替换 这 一 行 …… 


return image_gridded 
# pLt.imshow(overLay_grid(astro，128)); # 去 掉 这 行 注 释 来 测试 你 的 函数 


参见 附录 A.1 节 。 


3.2 ”信和 号 处 理 中 的 滤波 器 


滤波 是 图 像 处 理 中 最 基本 和 最 常用 的 操作 之 一 。 你 可 以 对 图 像 进行 滤波 以 去 除 噪声 、 增 强 
特征 或 探测 图 像 中 的 对 象 间 的 边缘 。 


里 解 滤波 器 最 容易 的 方式 不 是 图 像 ， 而 是 从 一 维 信 号 开始 。 例 如 ， 你 可 能 要 测量 到 达 光 纤 
末端 的 光 信 号 ， 如 果 每 毫秒 对 信号 进行 一 次 采样 ， 总 测量 时 间 是 100 毫秒 ， 那 么 你 可 以 得 
到 一 个 长 度 为 100 的 数组 。 假设 开始 测量 30 毫秒 后 打开 光 信 号 ， 持 续 30 富 秒 后 关闭 信 
号 ， 那么 你 最 后 会 得 到 如 下 的 一 个 信号 。 

sig = np.zeros(100, np.float) # 

sig[30:60] = 1 # 在 30~69 毫 秒 范围 内 ，signalL = 1， 因 为 能 够 观测 到 光 信 和 号 

fig, ax = plt.subplots() 

ax.plot(sig); 

ax.set_ylim(-0.1, 1.1); 
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为 了 找 出 打开 光 信 号 的 时 间 ， 你 可 以 将 光 信 号 延迟 1 毫秒 ， 然 后 从 延迟 信号 中 减 去 初始 信 
号 。 这 样 一 来 ， 当 信号 从 一 个 毫秒 到 下 一 个 毫秒 保持 不 变 时 ， 差 为 0， 当 信号 增强 时 ， 你 
就 会 得 到 一 个 正信 号 。 
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当 信号 减弱 时 ， 会 得 到 一 个 负 信号 。 如 果 只 想 精确 地 找 出 光 信号 的 打开 时 间 ， 那 么 可 以 对 
差分 信号 进行 裁剪 (clip) 操作 ,这样 任何 负 值 都 会 转换 为 0。 


sigdelta = sig[1:] # sigdeLta[0] 等 于 sig[1] ， 以 此 类 推 
sigdiff = sigdelta - sig[:-1] 

sigon = np.clip(sigdiff, 0, np.inf) 

fig, ax = plt.subplots() 

ax.plot(sigon) 

ax.set_ylim(-0.1, 1.1) 

print('Signal on at:', 1 + np.flatnonzero(sigon)[0], 'ms') 














Signal on at: 30 ms 
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(这 里 使 用 了 NumPy 的 flatnonzero 函数 ， 以 得 到 sigon 数组 中 第 一 个 非 零 元 素 的 索引 。) 


Wt 吉 果 表明 ， 可 以 通过 一 种 名 为 卷 积 (convolution) 的 操作 来 完成 滤波 。 在 信号 的 所 有 
， 计 算出 围绕 在 该 点 附近 的 值 与 核 (kernel， 一 个 预 设 的 值 向 量 ， 或 者 滤波 器 ) 之 间 
耻 ， 然 后 卷 积 操作 会 根据 核 的 具体 情况 显示 出 信号 的 不 同 特征 。 
现在 孝 虑 一 下 核 为 差分 滤波 器 (1，9，-1) 时 信号 s 的 情况 。 在 任意 位 置 i 上 ， 卷 积 结果 是 
1*s[i+1] + gxs[t] - 1*s[i-1]， 即 s[i+1] - s[i-1]。 因 此 ， 当 与 s[i] 邻接 的 值 相同 时 ， 
卷 积 结果 为 0， 当 s[i+1] > s[i-1] (信号 增强 ) 时 ， 卷 积 结果 为 正 ， 当 s[i+1] < s[i-1] 
(信号 减弱 ) 时 ， 卷 积 结果 为 负 。 你 可 以 将 这 个 结果 当 作 对 输入 函数 的 导数 的 估计 。 


一 般 情 况 下 ， 卷 积 公 式 为 (DO) = 过 rrsO) f(t 一 力 。 这 里 的 s 是 信号 ，s' 是 滤波 后 的 信号 ， 
f 古 滤波 器 ，t 是 滤波 器 的 长 度 。 


在 SciPy 中 ， 可 以 用 scipy.ndimage.convolve 来 进行 卷 积 操作 。 
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diff = np.array([1, 0, -1]) 

from scipy import ndimage as ndi 
dsig = ndi.convolve(sig, diff) 
plt.plot(dsig); 
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与 前 面相 同 ,信号 并 不 完美 ， 经 常 是 带 有 品 声 的 。 


np.random.seed(0) 
sig = sig + Np.random.normal(0, 0.3, size=sig.shape) 
plt.plot(sig); 





1.5 


1.0 


0.5 


0.0 


一 0.5 














普通 的 差分 滤波 器 可 以 放大 这 些 噪 


plt.plot(ndi.convolve(sig, diff)); 
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在 这 种 情况 下 ， 可 以 向 涯 波 器 添加 平 请 的 功能 。 最 常用 的 平滑 形式 是 高 斯 平滑 ， 它 用 高 斯 
国 数 对 信号 中 相 邻 的 点 进行 加 权 平均 。 可 以 编写 一 个 国 数 来 生成 高 斯 平 请 核 ， 如 下 所 示 。 


def gaussian_kernel(size, sigma): 
"""Make a 1D Gaussian kernel of the specified size and standard deviation. 





The size should be an odd number and at least ~6 times greater than sigma 
to ensure sufficient coverage. 


positions = np.arange(size) - size // 2 

kernel_raw = np.exp(-positions**2 / (2 * sigma**2)) 
kernel_normalized = kernel_raw / np.sum(kernel_raw) 
return kernel_normalized 


卷 积 的 结合 性 (associative) 是 一 个 非常 好 的 特性 ， 这 意味 着 ， 如 果 想 要 找 出 平滑 后 信号 的 
导数 ， 那 么 可 以 用 平滑 后 的 差分 滤波 器 卷 积 信号 ! 这 样 可 以 节省 大 量 的 计算 时 间 ， 因 为 只 
需要 对 滤波 器 进行 平滑 ， 而 滤波 器 一 般 远 远 小 于 信号 数据 。 


smooth_diff = ndi.convolve(gaussian_kernel(25, 3), diff) 
plt.plot(smooth_diff); 
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这 个 平滑 差分 滤波 器 在 中 心 位 置 寻 找 边缘 ， 并 继续 进行 差分 。 在 找到 真正 边缘 而 不 是 由 吕 
声 造成 的 “疑似 ”边缘 的 情况 下 ， 这 个 过 程 会 持续 发 生 。 结 果 如 图 3-1 所 示 。 


sdsig = ndi.convolve(sig, smooth _ diff) 
plt.plot(sdsig); 
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图 3-1: 应 用 于 噪声 信号 的 平滑 差分 滤波 器 





虽然 看 上 去 还 是 此 起 彼 伏 ， 但 这 幅 图 中 的 信 噪 比 (SNR，signal-to-noise ratio) 已 经 比 使 用 
简单 的 差分 滤波 器 好 多 了 。 
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滤波 

这 种 操作 称 为 滤波 的 原因 是 ， 在 物理 电路 中 ,很 多 这 样 的 操作 是 由 硬件 实现 
的 ， 这 种 硬件 只 允许 某 种 特定 的 电流 通过 ， 而 会 阻止 其 他 电流 。 这 种 硬件 称 
为 滤波 器 。 例 如 ， 一 种 名 为 低 通 滤 波 器 (low-pass filter) 的 常用 滤波 器 可 以 
从 电流 中 去 除 高 频 电压 波动 。 





















































3.3 图像 滤波 〈 二 维 滤波 器 ) 
我 们 已 经 了 解 了 一 维 滤波 ， 现 在 可 以 很 自然 地 将 这 个 概念 扩展 到 二 维 信号 ， 如 图 像 。 以 下 
是 一 个 可 以 在 钱币 图 像 中 找 出 边缘 的 二 维 差分 滤波 器 。 
coins = coins.astype(float) / 255 # 防止 溢出 
diff2d = np.array([[90, 1, 0], [1, 090, -1], [0, -1, 0]]) 


coins_edges = ndi.convolve(coins, diff2d) 
io.imshow(coins_edges); 
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二 维 滤波 器 与 一 维 滤波 器 的 原理 相同 : 在 图 像 的 每 个 点 上 放置 滤波 器 ， 计 算 滤波 器 值 与 图 
像 值 之 间 的 点 积 ， 然 后 将 结果 放 在 输出 图 像 中 的 相同 位 置 。 此 外 ， 与 一 维 差分 滤波 器 一 
样 ， 当 二 维 滤波 器 被 放置 在 一 个 周围 几乎 没有 差别 的 位 置 上 时 ， 点 积 会 彼此 抵消 为 0。 但 
当 它 被 放置 在 图 像 亮度 发 生 了 改变 的 位 置 时 ， 乘 以 1 的 值 与 乘 以 -1 的 值 就 不 一 样 了 ， 滤 
波 后 的 输出 会 是 一 个 正 值 或 负 值 (取决 于 图 像 是 否 从 右 下 角 到 左上 角逐 渐变 亮 )。 


与 一 维 诚 波 器 一 样 ， 你 可 以 通过 合适 的 二 维 滤波 器 消除 更 加 复杂 和 平 请 的 噪声 。Sobel 滤 
波 器 就 是 设计 用 来 做 这 种 事 的 ， 它 可 以 在 水 平和 垂直 两 个 变动 方向 上 找 出 数据 的 边缘 。 先 
从 水 平 滤波 器 开始 。 如 果 想 要 找 出 一 张 图 片 中 的 水 平 边缘 ， 你 可 以 试 试 下 面 的 滤波 器 。 
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然而 ， 正 如 在 一 























# 用 〈 垂 直 的 ) 列 向 量 找 出 水 平 边缘 
hdiff = np.array([[1]，[0]，[-1]]) 














维 滤波 器 中 看 到 的 那样 ， 这 会 使 图 像 中 的 边缘 估计 充满 噪声 。Sobel 滤波 
器 不 使 用 高 斯 平滑 ， 因 为 那样 会 导致 边缘 模糊 ， 它 利用 了 图 像 中 的 边缘 往生 


是 连续 的 这 一 




















属性 : 例如 ， 一 幅 海 详 的 图 片 包含 的 水 平 边缘 应 该 是 一 条 完整 的 线 ， 而 不 是 图 像 中 几 个 特 

















定 的 点 。 因 此 ，Sobel 滤波 器 在 水 平方 向 上 对 垂直 滤波 器 进行 平滑 : 它 在 中 心 位 置 寻 找 一 
条 被 邻近 位 置 支持 的 强 边 缘 。 


出 


然后 可 以 在 钱币 图 像 中 找 出 水 平 边缘 和 垂 








hsobel = np.array([[ 1, 2, 1], 
[ 0， 0， 0]， 
[-1， -2， -1]]) 


犬 直 Sobel 滤波 器 就 是 水 平 滤波 器 的 简单 转 置 。 


vsobel = hsobel.T 





由 


直 边 缘 。 








# 定制 x 轴 标 签 ， 使 图 形 更 易 读 
def reduce xaxis labels(ax, factor): 
"""Show only every ith label to prevent crowding on x-axis, 
e.g., factor = 2 would plot every second x-axis label, 
starting at the first. 











Parameters 
ax : matplotlib plot axis to be adjusted 
factor : int, factor to reduce the number of x-axis labels by 
plt.setp(ax.xaxis.get ticklabels(), visible=False) 
for label in ax.xaxis.get ticklabels()[::factor]: 
label.set visible(True) 


coins_h 
coins_v 


ndi.convolve(coins, hsobel) 
ndi.convolve(coins, vsobel) 


fig, axes = plt.subplots(nrows=1, ncols=2) 
axes[0].imshow(coins_h, cmap=plt.cm.RdBUu) 
axes[1].imshow(coins_v, cmap=plt.cm.RdBUu) 
for ax in axes: 

reduce_xaxis_labels(ax, 2) 
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最 后 ， 就 像 毕 达 哥 拉 斯 定理 那样 ， 你 可 以 证 明 任 意 方 向 上 的 边缘 大 小 等 于 平行 分 量 和 垂 
分 量 的 平方 和 的 平方 根 。 


coins_sobel = np.sqrt(Cotns_hxx*2 + coins_v**2) 
plt.imshow(coins_sobel, cmap='viridis'); 
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3.4 通用 滤波 器 : 邻近 值 的 任意 函数 


除了 通过 ndi.convolve 使 用 点 积 ，SciPy 还 允许 你 将 滤波 器 定义 为 一 个 邻 域内 的 点 的 任 
意 函 数 ， 这 是 使 用 ndi.generic_filter 实现 的 ， 这 种 方法 可 以 让 你 表示 出 任意 复杂 的 滤 
波 颖 


举 个 例子 ， 假 设 我 们 想 用 一 张 图 片 表示 某 县 的 房屋 价值 中 位 数 ， 粒 度 为 100 米 x 100 米 。 
地 方 政府 决定 ， 房 屋 销售 的 计 税 方式 是 10 000 美元 加 上 方圆 1 千 米内 房价 第 90 个 百 分 位 
点 的 5%。( 因 此 ， 房 价 越 高 的 地 方 ， 房 屋 销售 成 本 也 就 越 高 。) 可 以 用 generic_filter 生 
成 一 张 能 够 显示 所 有 地 区 税率 的 地 图 。 


from skimage import morphology 
def tax(prices): 
return 10000 + 0.05 * np.percentile(prices, 90) 
house_price map = (0.5 + Np.random.rand(100, 100)) * 1e6 
footprint = morphology.disk(radius=10) 
tax_rate_map = ndi.generic filter(house price map, tax, footprint=footprint) 
plt.imshow(tax_rate_map) 
plt.colorbar(); 
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3.4.1 练习 : 康 威 的 生命 游戏 

本 节 是 根据 Nicolas Rougier 的 建议 添加 的 。 

康 威 的 生命 游戏 是 一 个 看 起 来 非常 简单 的 游戏 ， 游 戏 中 有 一 个 正方 形 网 格 ， 其 中 有 很 多 
“细胞 ” ， 这 些 细胞 的 生死 取决 于 其 周围 的 细胞 。 在 每 一 个 时 间 点 ， 位 置 为 (i,】 的 细胞 状态 
都 要 根据 该 细胞 及 其 八 位 邻居 (上 、 下 、 左 、 右 以 及 四 个 角 ) 的 上 一 个 状态 来 确定 : 

。 只 有 一 个 邻居 或 没有 邻居 的 话 细胞 将 死亡 ; 

。 有 两 个 或 三 个 活着 的 邻居 的 活 细胞 可 以 存活 到 下 一 代 ， 

。 有 四 个 及 以 上 活着 的 邻居 的 活 细胞 将 因 人 口 过 多 而 死亡 ，; 

。 有 三 个 活着 的 邻居 的 死 细 胞 可 以 通过 重生 变 为 活 细 胞 。 

尽管 这 些 规则 看 起 来 像 一 个 人 为 设计 的 数学 问题 ， 但 它们 确实 可 以 产生 一 些 不 可 思议 的 
模式 。 最 简单 的 模式 包括 滑翔 者 ( 活 细胞 会 逐 代 缓慢 移动 的 小 模式 ) 或 滑翔 者 枪 (可 以 
不 断 释放 出 滑翔 者 的 固定 模式 )， 复 灯 一 些 的 包括 素数 生成 机 (参见 Nathaniel Johnston 的 
“Generating Sequences of Primes in Conway’s Game of Life”) ， 甚 至 能 够 模拟 生命 游戏 本 身 ! 

你 可 以 用 ndi.generic_filter 实现 生命 游戏 吗 ? 


参见 附录 A.2 市 。 


3.4.2 ”练习 : Sobel 梯 度 幅 值 


前 面 介绍 了 如 何 将 两 个 不 同 滤波 器 的 输出 组 合 起 来 ， 如 Sobel 水 平 滤波 器 和 垂直 滤波 器 。 
尔 能 够 编写 一 个 函数 ， 使 用 ndi.generic_filter 通过 一 次 传递 完成 这 个 操作 吗 ? 


参见 附录 A.3 市。 














3.5 ”图 与 NetworkX 库 


图 是 对 错综复杂 的 数据 的 一 种 自然 表示 。 例 如 ， 网 页 可 以 表示 为 节点 ， 而 网 页 之 间 的 链接 
则 可 以 表示 为 节点 间 的 链接 。 或 者 ， 在 生物 学 中 ， 所 谓 的 转录 网 络 (transcription network) 
用 节点 表示 基因 ， 并 用 边 来 连接 那些 在 表达 上 互相 有 直接 影响 的 基因 。 

图 与 网 络 

在 这 个 上 下 文中 ， 术 语 “ 图 ”(graph) 与 “网 络 ”是 同义词 ， 与 图 表 的 “图 ” 
(plot) 不 是 一 回 事 。 数 学 家 和 计算 机 科学 家 分 别 发 明了 略 有 不 同 的 名 词 来 描 
述 这 些 概念 : 图 = 网 络 ， 顶 点 = 节点 ， 边 = 链接 = 弧 。 与 大 多 数 人 一 样 ， 我 

们 会 交替 地 使 用 这 些 名 词 。 

或 许 你 更 熟悉 网 络 术 语 : 网 络 由 节点 (node) 和 节点 之 间 的 链接 (link) 组 










































































成 。 与 之 对 应 的 是 ， 图 由 顶点 (vertex) 和 顶点 之 间 的 边 (edge) 组 成 。 在 
NetworkX 中 ，Graph 对 象 由 nodes 和 节点 之 间 的 edges 组 成 ， 这 可 能 是 最 常 
见 的 用 法 。 


为 了 介绍 图 的 概念 ， 我 们 将 重新 生成 Lav Varshney 等 人 的 论文 “Structural Properties of the 
Caenorhabditis elegans Neuronal Network” 中 的 一 些 结 果 。 


在 示例 中 ， 我 们 将 线虫 神经 系统 中 的 神经 元 表示 为 节点 ， 当 一 个 神经 元 与 另 一 个 神经 元 之 
间 产生 突 触 (synapse) 时 ， 就 在 这 两 个 节点 之 间 放 一 条 边 。( 突 触 是 神经 元 用 来 交流 信息 
的 化 学 连接 。) 这 种 线虫 是 进行 神经 连接 分 析 的 绝妙 例子 ， 因 为 它们 都 具有 相同 数目 的 神 
经 元 (302 个 ) ， 而 且 所 有 神经 元 间 的 连接 都 是 已 知 的 。 这 衍生 出 了 一 个 妙趣 横生 的 开放 线 
虫 项 目 (OpenWorm project) ， 建 议 你 多 了 解 一 下 相关 信息 。 

你 可 以 从 WormAtlas database (http://www.wormatlas.org/neuronalwiring.html#Connectivity- 
data) 下 载 Excel 格式 的 神经 元 数据 集 。 因 为 pandas 库 可 以 直接 从 网 络 上 读 取 Excel 表格 ， 
所 以 用 它 来 读 取 数 据 ， 然 后 再 输入 到 NetworkX 中 。 


import pandas as pd 
Connectome_UrL = 'http://www.wormatlas.org/images/NeuronConnect.xls' 
conn = pd.read_exceL(connectome_UrL) 


现在 conn 中 包含 一 个 pandas DataFrame， 其 行 结 构 如 下 所 示 。 
[Neuron1, Neuron2, connection type, strength] 
因为 只 想 研 究 化 学 突 触 间 的 连接 情况 ， 所 以 用 以 下 代码 过 滤 其 他 突 触 类 型 。 


conn_edges = [(n1, n2, {'weight': s}) 
for n1i, n2, t, s in conn.itertuples(index=False, name=None) 
if t.startswith('S')] 


(可 以 参考 WormAtlas 网 页 上 对 不 同 连接 类 型 的 描述 。) 我 们 在 上 面 的 字典 中 使 用 了 


weight， 因 为 它 是 NetworkX 中 表示 边 属 性 的 一 个 特殊 关键 字 。 然 后 用 NetworkX 中 的 
DiGraph 类 建立 图 对 象 。 
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import networkx as nx 
wormbrain = nx.DiGraph() 
wormbrain.add_edges_from(conn_edges) 


现在 可 以 研究 这 种 网 络 的 一 些 性 质 了 。 对 于 有 向 网 络 ， 研 究 者 最 关心 的 事情 之 一 就 是 哪个 
节点 对 网 络 中 的 信息 流 最 重要 。 具 有 高 中 介 中 心性 〈betweenness centrality) 的 节点 是 那些 
位 于 多 对 不 同 节点 之 间 最 短路 径 上 的 节点 。 思 考 一 下 铁路 网 ， 某 些 站 点 会 连接 多 条 路 线 ， 
因此 你 必须 在 这 些 站 点 进行 换 乘 ， 才 能 完成 多 个 不 同 的 旅行 路 线 。 这 些 站 点 就 是 具有 高 中 
介 中 心性 的 节点 。 

可 以 通过 NetworkX 轻松 找 出 那些 重要 程度 接近 的 神经 元 。 在 NetworkX API 文 档 中 的 
“centrality” 条 目下 ，betweenness_centrality 的 文档 字符 串 详细 说 明了 这 个 函数 接受 一 个 
图 对 象 作为 输入 ， 并 返回 一 个 字典 ， 将 节点 ID 映射 到 中 介 中 心性 的 值 〈 浮 点 数 )。 


centrality = nx.betweenness_centrality(wormbrain) 
这 样 就 可 以 用 Python 的 内 置 函 数 sorted 找 出 具有 最 高 中 心性 的 神经 元 。 


central = sorted(centrality, key=centrality.get, reverse=True) 
print(central[:5]) 




















['AVAR', 'AVAL', 'PVCR', 'PVT', 'PVCL'] 





返回 的 神经 元 是 AVAR、AVAL、PVCR、PVT 和 PVCL， 它 们 都 与 线虫 对 刺激 的 反应 有 
关 : AVA 神经 元 将 线虫 的 前 感知 接收 器 与 负责 后 向 运动 的 神经 元 相连 ， 而 PVC 神经 元 则 
将 后 感知 接收 器 与 前 向 运动 相连 。 


Varshney 等 人 研究 了 由 总 共 279 个 神经 元 中 的 237 个 神经 元 组 成 的 一 个 强 连 通 分 量 
(strongly connected component) 的 性 质 。 在 图 中 ， 连 通 分 量 是 一 组 节点 ， 其 中 每 个 节点 都 
可 以 通过 全 体 链接 中 的 某 条 路 径 到 达 其 他 所 有 节点 。 这 个 连通 分 量 是 一 个 有 向 图 ， 也 就 是 
说 ， 边 是 从 一 个 节点 指向 另 一 个 结 点 的 ， 而 不 仅 是 连接 节点 。 在 这 种 情况 下 ， 强 连通 分 量 
中 的 所 有 结 点 都 能 够 以 正确 的 方向 遍历 链接 ， 到 达 彼 此 。 因 此 ,4 一 8 一 C 不 是 强 连通 
的 ， 因 为 没有 从 8 或 C 到 达 4 的 路 。 4 一 8 一 C 一 4 则 是 强 连 通 的 。 


在 神经 回路 中 ， 你 可 以 将 强 连 通 分 量 看 作 回路 中 的 “大 脑 ”， 每 当 处 理发 生 时 ， 其 上 游 的 
市 点 可 以 作为 输入 ,下游 的 市 点 可 以 作为 输出 。 
































神经 网 络 中 的 环 
循环 神经 回路 的 概念 可 以 追溯 到 20 世纪 50 年代 。 下 面 这 段 精彩 文字 摘自 
Amanda Gefter 在 科学 杂志 Nautilus 上 发 表 的 文章 “The Man Who Tried to 


Redeem the World with Logic”。 

如 果 有 人 看 见 闪 电 划 过 夜空 ， 眼 睛 就 会 向 大 脑 发 送信 号 ， 并 在 一 个 神经 元 链 
路 中 留 下 杂乱 的 痕迹 。 从 这 个 链 路 中 的 任意 给 定神 经 元 开始 ， 可 以 追溯 信号 
的 传输 步骤 ， 并 找 出 闪电 发 生 的 确切 时 间 ， 除 非 这 个 链 路 是 一 个 环 。 如 果 和 神 
经 元 链 路 是 一 个 环 ， 那 么 闪电 的 编码 信息 就 会 在 这 个 环 中 无 休止 地 打转 ， 它 
与 风电 实际 发 生 的 时 间 没 有 丝毫 联系 。 正 如 McCulloch 所 说 ， 它 成 了 “从 时 
间 中 挣脱 而 出 的 思想 ”， 换 向 话说 ， 就 是 一 段 记 忆 。 





3 章 


un 
Oo 
名 





NetworkX 可 以 简单 明了 地 从 我 们 的 wormbraiin 网 络 中 找 出 最 大 的 强 连 通 分 量 。 


sccs = nx.strongLy_connected_component_subgraphs(wormbrain) 

giantscc = max(sccs, key=len) 

print(f'The Largest strongly connected component has 
f'{giantscc.number_of_nodes()} nodes, out of ' 
f'{wormbrain.number_of_nodes()} total.') 








1 


The Largest strongly connected component has 237 nodes，out of 279 total. 


正如 论文 中 提 到 的 ， 这 个 分 量 碰巧 比 所 预料 的 小 ， 说 明 这 个 网 络 可 以 分 离 为 输入 
层 和 输出 层 。 


接 下 来 重新 生成 论文 中 的 图 6B， 即 入 度 分 布 的 存活 函数 。 首 先 ， 计 算 几 个 重要 的 数量 。 


in_degrees = list(wormbrain.in_degree().values()) 

in deg distrib = np.bincount(in_degrees) 

avg_in degree = np.mean(in_degrees) 

cumfreq = np.cumsum(in deg distrib) / np.sum(in_ deg distrib) 
survival = 1 - cumfreq 





、 中 间 


ou 
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然后 用 Matplotlib 绘 


o 


fig, ax = plt.subplots() 

ax.loglog(np.arange(1, len(survival) + 1), survival) 

ax.set xlabel('in-degree distribution') 

ax.set_ylabel('fraction of neurons with higher in-degree distribution') 
ax.scatter(avg_in degree, 0.0022, marker='v') 

ax.text(avg_in_degree - 0.5, 0.003, 'mean=%.2f' % avg_in_degree) 
ax.set_ylim(0.002, 1.0); 
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就 是 这 样 ， 用 SciPy 重新 进行 一 次 科学 分 析 。 没 有 进行 曲线 拟 合 …… 这 正 是 以 下 练习 要 做 
的 事情 。 


练习 : 用 SciPy 进 行 曲线 拟 合 

这 个 练习 有 点 像 是 对 第 7 章 (最 优化 ) 的 热身 :scipy.optimize.curve_fit 国 数 用 一 个 朝 
律 分 布 来 拟 合 入 度 存 活 函 数 的 尾部 ，ftq)~d”，d > d,。，d_ = 10，q, = 10 ( 即 论文 图 6B 中 的 
红线 )， 并 修改 绘图 ， 使 其 包含 那 条 红线 。 


参见 附录 A.4 市 。 


现在 你 应 该 基本 理解 ， 图 是 一 种 抽象 的 科学 概念 ， 并 知道 如 何 用 Python 和 NetworkX 轻松 
实现 对 图 的 操作 与 分 析 。 接 下 来 介绍 一 种 用 于 图 像 处 理 和 计算 机 视觉 的 特殊 类 型 的 图 。 


3.6 区域 邻接 图 


RAG 是 图 的 一 种 表示 方式 ， 它 易于 进行 图 像 分 割 : 将 图 像 划 分 为 有 意义 的 区 域 (分 段 )。 
如 果 你 看 过 《终结 者 2》， 那 么 就 应 该 见 过 图 像 分 割 ( 见 图 3-2)。 
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图 3-2: 终结 者 视角 


图 像 分 割 对 于 人 类 来 说 不 值 一 提 ， 人 类 每 时 每 刻 都 在 进行 图 像 分 割 ， 根 本 不 用 思考 。 但 对 
计算 机 来 说 ， 图 像 分 割 则 是 一 个 非常 困难 的 问题 。 为 了 理解 这 种 困难 ， 查 看 以 下 图 形 。 





























二 问 
< 


[sj 
虽然 你 看 到 的 是 一 张 脸 ， 但 计算 机 只 能 看 到 一 堆 数字 。 


58688888888888899998898988888666532121 
66888886888998999999899998888888865421 
66665566566689999999999998888888888653 
66668899998655688999899988888668665554 
66888899998888888889988888665666666543 
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66888888886868868889998888666688888865 
66666443334556688889988866666666668866 
66884235221446588889988665644644444666 
86864486233664666889886655464321242345 
86666658333685588888866655659381366324 
88866686688666866888886658588422485434 
88888888888688688888866566686666565444 
88888888868666888888866556688666686555 
88888988888888888888886656888688886666 
88889999989998888888886666888888868886 
88889998888888888888886566888888888866 
88888998888888688888666566868868888888 
68888999888888888868886656888888888866 
68888999998888888688888655688888888866 
68888999886686668886888656566888888886 
88888888886668888888888656558888888886 
68888886665668888889888555555688888886 
86868868658668868688886555555588886866 
66688866468866855566655445555656888866 
66688654888886868666555554556666666865 
88688658688888888886666655556686688665 
68888886666888888988888866666656686665 
66888888845686888999888886666556866655 
66688888862456668866666654431268686655 
68688898886689696666655655313668688655 
68888898888668998998998885356888986655 
68688889888866899999999866666668986655 
68888888888866666888866666666688866655 
56888888888686889986868655566688886555 
36668888888868888868688666686688866655 
26686888888888888888888666688688865654 
28688888888888888888668666668686666555 
28666688888888888868668668688886665548 


我 们 的 视觉 系统 高 度 优 化 了 人 脸 识 别 ， 即 便 是 在 这 堆 数字 中 ， 你 都 可 能 看 到 人 脸 ! 希望 你 
能 理解 我 们 的 意思 。 你 还 可 以 看 看 Faces in Things 的 Twitter， 它 以 一 种 更 加 幽默 的 方式 演 
示 了 我 们 视觉 系统 的 人 脸 识别 优化 过 程 。 
无 论 如 何 ， 最 大 的 困难 是 如 何 找 出 这 些 数字 背后 的 意义 ， 以 及 如 何 确 定 将 图 像 分 割 为 不 同 
部 分 的 边界 位 置 。 一 种 常用 的 方法 是 ， 先 找 出 那些 你 能 确定 属于 同一 部 分 的 小 型 区 域 ( 称 
为 超 像素 ) ， 然 后 按照 某 种 更 加 复杂 的 规则 将 它们 合并 起 来 。 


举 一 个 来 自 伯克利 图 像 分 割 数据 集 (BSDS，Berkeley segmentation dataset) 的 简单 例子 ， 
假设 你 想 将 以 下 图 像 中 的 老虎 分 割 出 来 。 
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名 为 简单 线性 和 迭代 聚 类 (SLIC，simple linear iterative clustering) 的 聚 类 算法 可 以 提供 一 个 
不 错 的 起 点 ，scikit-image 库 中 提供 了 这 种 算法 。 


url = ('http://www.eecs.berkeley.edu/Research/Projects/CS/vision/' 
'bsds/BSDS300/html/images/plain/normal/color/108073.jpg') 
tiger = io.imread(url) 
from skimage import segmentation 
seg = segmentation.slic(tiger, n_segments=30, compactness=40.0, 
enforce_connectivity=True, sigma=3) 


scikit-image 库 中 还 有 一 个 展示 分 割 的 函数 ， 可 用 于 对 简单 线性 和 迭代 聚 类 进行 可 视 化 。 


from skimage import color 
io.imshow(color.label2rgb(seg, tiger)); 
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从 图 中 可 以 看 出 ， 老 虎 的 身体 被 分 成 了 3 个 部 分 ， 图 像 的 其 余部 分 也 进行 了 分 割 。 


RAG 中 的 每 个 节点 表示 图 像 中 的 一 块 区 域 ， 当 两 块 区 域 相 邻 时 ， 就 用 一 条 边 将 两 个 节点 连 
接 起 来 。 在 实际 建立 一 个 RAG 之 前 ， 可 以 先 用 scikit-image 中 的 show_rag 函数 将 上 图 中 的 
RAG 显示 出 来 ， 以 感觉 一 下 其 形式 。 实 际 上 ， 本 章 的 代码 片段 都 来 自 scikit-image 库 ! 


from skimage.future import graph 



































g = graph.rag_mean_color(tiger, seg) 
graph.show_rag(seg, g, tiger); 
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在 这 张 图 中 ， 你 可 以 看 到 与 每 个 区 域 对 应 的 节点 ， 以 及 相 邻 区 域 之 间 的 边 。 它 们 使 用 
Matplotlib 中 的 YIGnBu 〈 黄 一 绿 一 蓝 ) 颜色 图 按照 相 邻 两 个 节点 颜色 不 同 的 原则 进行 着 色 。 


上 图 还 展示 了 将 图 像 分 割 表 示 为 图 的 奇妙 之 处 : 有 些 边 是 位 于 老虎 的 体内 节点 和 体外 
点 之 间 的 ， 相 比 于 那些 体内 节点 之 间 的 边 或 体外 节点 之 间 的 边 ， 这 些 边 更 加 明亮 (意味 
着 更 高 价值 )。 因 此 ， 沿 着 这 些 边 切割 图 像 就 能 得 到 想 要 的 分 割 结果 。 我 们 选择 的 是 一 种 
相对 简单 的 基于 颜色 的 图 像 分 割 ， 但 对 于 具有 更 复杂 的 成 对 关系 的 图 来 说 ， 以 上 原则 同 
样 适用 。 


3.7 ”优雅 的 ndimage: 如 何 根据 图 像 区 域 建立 图 对 象 


万 事 俱 备 : 现在 你 已 经 了 解 了 NumPy 数组 、 图 像 滤 波 、 通 用 滤波 器 、 图 和 RAG。 接 下 来 
编写 一 个 程序 ， 将 老虎 从 图 中 抠 出 来 ! 
显而易见 的 方法 是 用 两 个 嵌 套 的 for 循环 迭代 图 像 中 的 每 个 像素 ， 检 查 相 邻 像素 并 核对 不 
同 的 标签 。 
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import networkx as nx 
def build_ rag(labels, image): 
g = nx.Graph() 
nrows, ncols = labels.shape 
for row in range(nrows): 
for col in range(ncols): 
current_label = labels[row, col] 
if not current_label in g: 
g.add_node(current_label) 
g.node[current_label]['total color'] = np.zeros(3, dtype=np.float) 
g.node[current_label]['pixel count'] = 0 


if row < nrows - 1 and labels[row + 1, col] != current_ label: 
g.add_edge(current_LabeL，LabeLs[row + 1，coL]) 
if coL < ncols - 1 and labels[row, col + 1] != current_ label: 


g.add edge(current label, labels[row, col + 1]) 
g.node[current_label]['total color'] += image[row, col] 
g.node[current_ label]['pixel count'] += 1 

return g 


嘿 ! 代码 确实 有 效 ， 但 如 果 想 要 分 割 一 个 三 维 图 像 ， 你 就 不 得 不 重 写 一 下 代码 。 


import networkx as nx 
def build_ rag_3d(labels, image): 
g = nx.Graph() 
nplns, nrows, ncols = labels.shape 
for pln in range(nplns): 
for row in range(nrows): 
for col in range(ncols): 
current_label = labels[pln, row, coll] 
if not current_label in g: 
g.add_node(current_label) 
g.node[current_label]['total color'] = np.zeros(3, dtype=np.float) 
g.node[current_ label]['pixel count'] = 0 
if pln < nplns - 1 and labels[pln + 1, row, col] != current_label: 
g.add_edge(current_label, labels[pln + 1, row, col]) 




















if row < nrows - 1 and labels[pln, row + 1, col] != current_label: 
g.add_edge(current_label, labels[pln, row + 1, col]) 
if coL < ncols - 1 and labels[pln, row, col + 1] != current_label: 


g.add_edge(current_label, labels[pln, row, col + 1]) 
g.node[current_LabeL]['totaL color'] += image[pln, row, col] 
g.node[current_ label]['pixel count'] += 1 

return g 


这 两 段 代 码 都 相当 丑陋 和 笨重 ， 而 且 难 以 扩展 : 如 果 想 在 相 邻 像素 中 考虑 角 上 的 像素 ( 即 
[row，col] 与 [row + 1，coL + 1] 也 是 相 邻 像素 ) ， 那 么 代码 会 变 得 更 加 凌乱 。 此 外 ， 如 
果 想 要 分 析 三 维 视频 ， 就 必须 添加 另 一 个 维度 ， 再 做 一 层 循环 娱 套 。 太 乱 了 | 


看 看 Vighnesh 的 天 才 做 法 : SciPy 的 generic_filter 国 数 已 经 替 我 们 完成 了 迭代 ! 前 面 用 
这 个 函数 来 计算 关于 NumPy 数组 每 个 元 素 邻 域 的 任意 复杂 函数 。 现 在 我 们 不 想 通 过 这 个 
函数 得 到 滤波 后 的 图 像 ， 而 想 要 得 到 一 个 图 。generic_filter 函数 可 以 让 你 向 滤波 函数 传 
递 一 个 附加 参数 ， 可 以 用 这 个 功能 建立 图 对 象 。 


import networkx as nx 
import numpy as np 























from scipy import ndimage as nd 


def add_edge_fiLter(vaLues，graph) : 
Center = values[len(values) // 2] 
for neighbor in values: 
if neighbor != center and not graph.has_edge(center, neighbor): 
graph.add_edge(center, neighbor) 
# 没有 用 到 浮 点 型 返回 值 ， 但 generic_filter 需 要 有 这 样 的 返 


return 0.0 





翌 


值 。 





def build_rag(labels, image): 
g = nx.Graph() 
footprint = ndi.generate_ binary_structure(labels.ndim, connectivity=1) 
_ = ndi.generic filter(labels, add edge filter, footprint=footprint, 
mode='nearest', extra_arguments=(g, )) 
for n in g: 
g.node[n]['total color'] = np.zeros(3, np.double) 
g.node[n]['pixel count'] = 0 
for index in np.ndindex(labels.shape): 
= labels[index] 
g.node[n]['total color'] += image[index] 
g.node[n]['pixel count'] += 1 
return g 


这 段 代码 真是 烟 烟 生 辉 ， 原 因 如 下 。 











。 ndi.generic_filter 友 代 数组 元 素 及 其 邻居 。( 直 接 用 numpy.ndindex 在 数组 索引 间 迭 代 。) 
。 我 们 从 滤波 函数 中 返回 一 个 浮 点 数 ， 因 为 generic_filter 0 数 。 











不 过 ， 我 们 会 忽略 滤波 输出 (所 有 输出 都 是 0)， 只 用 其 向 图 中 添加 边 的 “副作用 ”。 


。 循环 没有 好 几 层 的 嵌 套 ， 这 使 得 代码 更 加 紧凑 ， 一 气 呵 成 。 
。 代码 适用 于 一 维 、 二 维 、 三 维 ， 其 至 八 维 图 像 ! 








。 如 果 想 要 支持 对 角 连 接 ， 只 需要 将 connectivity 参数 修改 为 ndi.generate_binary_structure。 


3.8 ”归纳 总 结 : 平均 颜色 分 割 


接 下 来 可 以 用 学 到 的 知识 将 老虎 从 上 面 的 图 像 中 分 割 出 来 。 


g = build rag(seg, tiger) 
for n in g: 
node = g.node[n] 
node[ 'mean'] = node[ 'totaL color'] / node[ 'pixeL count'] 
for yu, v in g.edges iter(): 
d = g.node[ul]['mean'] - g.node[v]['mean'] 
g[u]j[v]['weight'] = np.linalg.norm(d) 


每 条 边 都 保存 了 它 连 接 的 两 个 区 域 的 平均 颜色 的 差 。 可 以 为 图 设 定 一 个 国 值 : 


def threshoLd graph(g, t): 
to_remove = [(u, v) for (u，v，d) in g.edges(data=True) 
if d['weight'] > t] 
g.remove_edges_from(to_remove) 
threshold_graph(g, 80) 


















































用 ndimage 实 现 图 像 区 域 网 络 
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最 后 ， 体 会 一 下 我 们 在 第 2 章 中 学 到 的 NumPy 用 数组 进行 索引 ( 即 花 式 索 引 ) 的 威力 。 





map_array = np.zeros(np.max(seg) + 1, int) 
for i, segment in enumerate(nx.Connected_components(g) ): 
for initial in segment: 
map_array[int(initial)] = i 
segmented = map_array[seg] 
plt.imshow(color.label2rgb(segmented, tiger)); 


啊 哦 ! 老虎 的 尾巴 似乎 不 见 了 ! 





0 100 200 300 








400 








尽管 如 此 ， 我 们 仍然 认为 这 是 RAG 能 力 的 一 次 成 功 展示 ， 


同时 也 体现 了 SciPy 和 





NetworkX 实现 它 的 美妙 之 处 。 这 些 功能 很 多 都 能 在 scikit-image 库 中 找到 。 如 果 对 图 像 分 


析 感 兴趣 ， 就 去 查阅 一 下 吧 ! 
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频率 与 快速 传 里 叶 变换 





如 果 想 要 了 解 宇 宙 的 奥秘 ， 那 么 就 用 能 量 、 频 率 和 振动 来 思考 吧 。 
一 一 尼 二 拉 ， 特 斯 拉 
本 章 是 与 斯 特 凡 ' 范 德 瓦 尔 特 的 父亲 一 一 PW， 范 德 瓦 尔 特 一 一 合作 写成 的 。 
本 章 的 风格 与 其 余部 分 有 轻微 差异 ， 你 会 发 现 本 章 的 代码 非常 朴实 。 本 章 将 介绍 一 种 优雅 
的 算法 一 一 快速 傅 里 时 变换 (FFT，fast Fourier transform)， 其 用 途 包 罗 万 象 。SciPy 实现 
了 这 种 算法 ， 当 然 ， 它 也 可 以 作用 于 NumPy 数组 。 


4.1 频率 的 引入 
我 们 从 一 些 绘图 风格 的 设置 开始 ， 并 导入 常用 的 库 。 


# 使 图 形 显示 在 文本 中 ， 定 制 绘图 风格 
%matplotlib inline 

import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 














import numpy as np 


离散 全 里 叶 变 换 (DFT, discrete Fourier transform) “是 一 种 用 于 将 时 间或 空间 数据 转换 为 频 
域 (frequency domain) 数据 的 数学 方法 。 频 率 是 一 个 耳熟能详 的 概念 ， 因 为 它 经 常 出 现在 
我 们 的 日 常用 语 中 : 使 用 耳机 能 听 到 的 最 低 声 音 大 概 是 20 赫兹 ， 而 钢琴 的 中 央 C 音 的 频 
率 为 261.6 赫兹 。 赫 兹 是 每 秒 振动 次 数 ， 这 里 指 的 是 耳机 中 的 振动 膜 每 秒 来 回 移动 的 次 数 。 
这 种 振动 在 空气 中 产生 压缩 脉冲 ， 并 传送 到 你 的 鼓膜 上 ， 引 起 同样 频率 的 振动 。 因 此 ， 如 












































注 1: 离散 傅 里 叶 变 换 处 理 的 是 采样 数据 ， 与 之 相对 的 标准 什 里 叶 变 换 使 用 的 是 连续 函数 。 
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果 你 建立 一 个 简单 的 周期 函数 ， 如 sin(10 x 2rzD， 那 么 就 可 以 将 其 看 作 一 个 波 ， 如 以 下 代码 
和 图 片 所 示 。 


f = 10 # 频率 ， 以 秒 为 周期 ,单位 为 赫兹 
f_s = 100 # 采样 率 ， 每 秒 测 量 次 数 





np.linspace(0, 2, 2 * f_s, endpoint=False) 
np.sin(f * 2 * np.pi * t) 


x 


fig, ax = plt.subplots() 
ax.plot(t, x) 

ax.set_ xlabel('Time [s]') 
ax.set_ylabel('Signal amplitude'); 
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或 者 也 可 以 将 它 看 作 一 个 频率 为 10 赫兹 的 重复 信号 ( 它 每 /10 秒 重复 一 次 ， 这 个 时 间 长 
度 称 为 周期 ) 。 虽 然 我 们 会 自然 地 将 频率 与 时 间 联 系 在 一 起 ， 但 它 同样 可 以 用 来 描述 空间 。 
例如 ， 一 张 纺织 品 印花 的 图 片 会 呈现 出 高 空间 频率 ， 而 天 空 或 其 他 平 请 物体 则 具有 低空 间 
我 们 通过 离散 傅 里 叶 变 换 的 应 用 研究 一 下 正弦 波 ， 如 以 下 代码 和 图 片 所 示 。 


from scipy import fftpack 

















X = fftpack.fft(x) 
freqs = fftpack.fftfreq(len(x)) * f_s 


fig, ax = plt.subplots() 


ax.stem(freqs, np.abs(X)) 
ax.set_xlabel('Frequency in Hertz [Hz]') 





ax.set_yLabeL('Frequency Domain (Spectrum) Magnitude ' ) 
ax.set xlim(-f_s / 2, fs/2) 
ax.set_ylim(-5, 110) 


(-5, 110) 
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可 以 看 到 ， 快 速 傅 里 叶 变 换 的 输出 是 一 个 与 输入 形状 相同 的 一 维 数组 ， 其 中 包含 的 值 为 复 
数 。 除 了 两 个 频率 项 ， 其 他 所 有 值 均 为 零 。 按 照 传统 ， 用 荆 叶 图 对 结果 幅度 进行 可 视 化 ， 
其 中 每 个 茎 的 高 度 对 应 基础 值 。 

(4.6.1 节 的 附注 栏 “ 离 散 傅 里 叶 变换 ”将 解释 为 什么 会 有 正 频率 和 负 频 率 。 你 还 可 以 通过 
这 部 分 内 容 更 加 深入 地 了 解 全 里 叶 变 换 底层 的 数学 知识 。) 

傅 里 叶 变换 可 以 带 我 们 从 时 域 转换 到 频 域 ， 它 有 着 极其 广泛 的 应 用 。 快 速 傅 里 叶 变 换 是 一 
种 计算 离散 传 里 叶 变 换 的 方法 ， 它 可 以 在 计算 过 程 中 保存 之 前 的 结果 并 重用 ， 从 而 达到 非 
常 高 的 速度 。 

本 章 将 研究 离散 传 里 叶 变换 的 几 种 应 用 ， 以 说 明快 速 傅 里 叶 变换 可 以 应 用 于 多 维 数据 (不 
仅 限 于 一 维 测量 ) ， 从 而 实现 各 种 各 样 的 目标 。 


4.2 示例 : 鸟 鸣 声 谱 图 


我 们 从 一 个 最 普通 的 应 用 开始 ， 将 (随时 间 变 化 的 空气 压力 组 成 的 ) 声音 信号 转换 为 声 谱 
图 (spectrogram)。 你 可 能 在 音乐 播放 器 的 均衡 器 视图 或 老式 的 立体 声音 响 上 见 过 声 谱 图 
( 见 图 4-1)。 
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STEREO FREQUENCY EQUALIZER 
TONE COMPUTER DISPLAY 


id 
号 吕 时 昌 呈 二 三 三 
Lv ms ms 


目 口 B40 I= [=[® M 


L = hd 人 
LEFT [TIET™ Vw 

听写 户 LAY FUNCTIGO | EQ CMHARACGTI 

SPECTRIV bEVEL, COAL Po el | = | 














4-1: Numark EQ2600 立体 声 均衡 器 (图 片 获得 了 作者 Sergey Gerasimuk 的 授权 ) 
我 们 来 欣赏 一 段 夜 营 的 鸣叫 (根据 CC BY 4.0 协议 发 布 )。 


from IPython.display import Audio 
Audio( 'data/nightingale.wav') 

















如 果 你 阅读 的 是 纸 版 书 ， 那 么 就 不 得 不 展开 想象 力 了 1 这 上段 声音 是 这 样 的 : 咬 哩 哩 哩 哩 咬 
哩 哩 吐 哩 哩 哩 哩 哩 。 
因为 不 是 所 有 人 都 能 流利 地 说 岛 语 ， 所 以 如 果 能 用 图 形 将 这 段 声音 信号 表示 出 来 ， 那 么 效 
果 可 能 会 更 好 。 

先 载 和 音频 文件 ， 其 中 包括 采样 率 (每 秒 的 测量 次 数 ) 和 音频 数据 ， 音 频数 据 是 一 个 形状 
为 (N，2) 的 数组 ， 因 为 是 立体 声 ， 所 以 有 2 列 。 


from scipy.io import wavfile 








rate, audio = wavfile.read('data/nightingale.wav') 
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通过 求 左 声 道 和 右 声 道 的 均值 ， 将 其 转换 为 单 声 道 。 
audio = np.mean(audio, axis=1) 
然后 计算 声音 的 长 度 ， 并 绘制 出 音频 数据 ( 见 图 4-2)。 


N 
L 











audio.shape[0] 
N / rate 


print(f'Audio length: {L:.2f} seconds') 


f, ax = plt.subplots() 
ax.plot(np.arange(N) / rate, audio) 
ax.set_xlabel('Time [s]') 
ax.set_ylabel('Amplitude [unknown]'); 


Audio length: 7.67 seconds 
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图 4-2: 夜 营 鸣 叫 的 音频 波形 图 


还 是 不 太 令 人 满意 ， 对 吗 ? 如 果 将 这 样 的 电压 输入 喇叭 ， 或 许可 以 听 到 鸟 儿 的 鸣叫 ， 但 我 
们 无 法 在 头脑 中 具体 想象 出 这 种 声音 。 有 没有 更 好 的 表示 方法 呢 ? 

有 的 ， 那 就 是 离散 傅 里 叶 变 换 ， 其 中 离散 指 的 是 这 段 录 音 是 由 有 时间 间隔 的 声音 测量 数据 
组 成 的 。 与 之 相对 的 是 连续 录音 ， 比 如 磁带 〈 还 记得 那 种 盒 式 录音 带 吗 )。 离 散 傅 里 叶 变 
换 经 常用 快速 傅 里 叶 变 换算 法 来 计算 ， 在 非 正式 场合 ， 快 速 傅 里 叶 变 换 可 以 用 于 指 代 离散 
传 里 叶 变 换 。 离 散 傅 里 叶 变 换 告 诉 哪 些 频率 或 “音符 ”会 出 现在 的 信号 中 。 

当然 ， 鸟 儿 的 歌声 中 包含 许多 音符 ， 因 此 还 应 该 知道 每 个 音符 的 发 生 时 间 。 传 里 叶 变换 在 
时 域 ( 即 随时 间 进 行 的 一 组 测量 ) 中 接受 信号 ， 然 后 将 其 转换 为 一 个 频谱 ， 即 一 组 带 有 相 
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应 (复数 ”) 值 的 频率 。 频 谱 不 包含 任何 关于 时 间 的 信息 ! ” 


因此 ， 如 果 想 在 得 到 频率 的 同时 得 到 该 频率 的 发 生 时 间 ， 需 要 再 动 点 脑筋 。 策 略 如 下 : 接 
受 音频 信号 ， 将 其 分 割 为 有 重合 的 小 片段 ， 然 后 对 每 个 片段 应 用 傅 里 叶 变 换 (这 种 技术 称 
为 短 时 傅 里 叶 变 换 )。 

我 们 将 信号 分 割 为 1024 个 采样 片段 ， 每 个 采样 大 概 是 0.02 秒 的 音频 。 在 随后 检查 效果 时 ， 
将 解释 为 何 选择 1024 而 不 是 1000 个 片段 的 原因 。 每 个 片段 之 间 有 100 个 采样 的 重合， 如 
下 图 所 示 。 




















二 











将 信号 分 割 为 1024 个 采样 片段 ， 每 个 片段 与 前 面 的 片段 有 100 个 重 每 采样 。 得 到 的 stices 
对 象 每 行 包含 一 个 片段 。 


from skimage import util 





M = 1024 


slices = util.view as_windows(audio, window_shape=(M,), step=100) 
print(f'Audio shape: {audio.shape}, Sliced audio shape: {slices.shape}') 


Audio shape: (338081,), Sliced audio shape: (3371, 1024) 
生成 一 个 加 窗 函 数 (参见 4.6.2 节 中 对 基本 假设 和 每 条 假设 的 讨论 ) ， 并 用 它 乘 以 信号 。 


win = np.hanning(M + 1)[:-1] 
slices = slices * win 


每 列 一 个 片段 更 方便 操作 ， 因 此 进行 转 置 。 


slices = slices.T 
print('Shape of ‘slices’:', slices.shape) 





Shape of ‘slices’: (1024, 3371) 





注 2; 实际 上 ， 传 里 叶 变换 告诉 我 们 如 何 将 一 组 频率 不 同 的 正弦 波 组 合成 输入 信号 。 频 谱 由 复数 组 成 ， 每 个 
复数 代表 一 个 正弦 波 。 复 数 编码 了 两 个 指标 : 幅 值 和 相 角 。 幅 值 表示 信号 中 的 正弦 波 的 强度 ， 相 角 表 
示 正 弦 波 随时 间 变 化 的 程度 。 本 章 只 关注 可 以 用 np.abs 计算 的 幅 值 。 

注 3: 如 果 想 同时 (近似) 计算 频率 和 发 生 时 间 ， 可 以 阅读 小 波 分 析 的 相关 资料 ， 以 了 解 更 多 相关 技术 。 
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为 每 个 片段 计算 离散 傅 里 叶 变 换 ， 返 回 的 结果 中 既 有 正 频 率 ， 又 有 负 频 率 ( 详 见 4.6.1 
节 )， 这 里 提取 出 正 的 M2 频率 。 


spectrum = np.fft.fft(slices, axis=0)[:M // 2 + 1:-1] 
spectrum = np.abs(spectrum) 


(简单 说 明 一 下 ， 你 会 注意 到 我 们 交替 使 用 了 scipy.fftpack.fft 和 np.fft 国 数 。NumPy 
提供 了 基础 的 快速 傅 里 时 变换 功能 ，SciPy 则 对 其 进行 了 扩展 ， 但 它们 之 中 都 包含 fft 函 
数 ， 这 是 基于 Fortran 语言 的 FFTPACK 开发 的 。) 

频谱 中 可 能 包含 非常 大 的 值 和 非常 小 的 值 ， 对 其 取 对 数 可 以 显著 压缩 取 值 范围 。 

接 下 来 用 信号 和 信和 号 最 大 值 的 比率 的 对 数 来 绘图 ( 见 图 4-3) ， 这 个 比率 有 专门 的 单位 ， 称 
为 分 贝 ， 即 20logio (振幅 比 )。 


f, ax = plt.subplots(figsize=(4.8, 2.4)) 

















S = np.abs(spectrum) 
S = 20 * np.log10(S / np.max(S)) 


ax.imshow(S, origin='lower', cmap='viridis', 
extent=(0, L, 0, rate / 2 / 1000)) 

ax.axis('tight') 

ax.set_ylabel('Frequency [kHz]') 

ax.set xlabel('Time [s]'); 





Frequency [kHz] 





Time [s] 











图 4-3: 鸟 鸣 频谱 图 


这 下 好 多 了 ! 现在 可 以 看 出 ， 频 率 是 随 着 时 间 变 化 的 ， 这 段 频谱 对 应 声音 发 出 的 方式 。 看 
看 能 否 匹配 前 面 的 描述 : 叶 哩 哩 哩 哩 咬 哩 哩 咬 哩 哩 哩 哩 哩 。 (我 就 不 模仿 3~5 秒 的 声音 了 ， 
那 是 另 一 种 岛 。) 


SciPy 已 经 用 sctpy.signaL.spectrogram 实现 了 这 个 过 程 〈 见 图 4-4)， 可 以 用 如 下 方式 调用 。 
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from scipy import signal 


freqs, times, Sx = signal.spectrogram(audio, fs=rate, window='hanning', 
nperseg=1024, noverlap=M - 100， 
detrend=False, scaling='spectrum') 


f, ax = plt.subplots(figsize=(4.8, 2.4)) 

ax.pcolormesh(times, freqs / 1000, 10 * np.log10(Sx), cmap="'viridis') 
x.set_ylabel('Frequency [kHz]') 

x.set_ xlabel('Time [s]'); 


Qo 





Frequency [kHz] 


a 


I 
Hw 














图 4-4: SciPy 内 置 函数 生成 的 鸟 鸣 频 谱 图 


手动 建立 的 频谱 函数 与 SciPy 内 置 函数 的 唯一 区 别 是 ，SciPy 返回 的 是 频谱 幅 值 的 平方 〈 将 
测量 电压 变 成 了 测量 能 量 ) ， 并 乘 以 某 个 标准 化 因子 。” 


4.3 历史 


傅 里 叶 变 换 的 确切 起 源 很 难 寻找 ， 一 些 相关 方法 甚至 可 以 回 淹 到 巴比伦 时 代 。 但 在 19 世 
纪 初 期 计算 行星 轨道 和 求解 热力 学 (流体 ) 方程 是 非常 热门 的 话题 ， 并 取得 了 一 些 重大 
突破 。 克 菜 罗 、 拉 格 朗 日 、 欧 拉 、 高 斯 和 达 朗 贝尔 这 些 人 中 ， 究 竟 谁 对 健 里 叶 变 换 做 出 
了 重大 贡献 ， 尚 没有 定论 ;但 第 一 个 描述 快速 傅 里 叶 变 换 〈 一 种 计算 离散 传 里 叶 变换 的 算 
法 ，Cooley 和 Tukey 于 1965 年 普及 了 这 种 方法 ) 的 人 是 高 斯 。 约 瑟 夫 . 传 里 时 (这 种 变 
换 就 是 以 其 名 字 命名 的 ) 首先 提出 ， 任 意 周期 的 函数 都 可 以 表示 为 多 个 三 角 函 数 的 和 。 














注 4: SciPy 为 在 频谱 中 保留 能 量 做 了 一 些 努 力 。 因 此 ， 当 只 取 一 半分 量 〈 如 X 个 偶 分 量 ) 时 ， 它 会 将 除 第 
一 个 和 最 后 一 个 分 量 (这 两 个 分 量 由 频谱 的 两 半 “ 共 享 ”) 以 外 的 其 余 分 量 乘 以 2。 它 还 会 对 窗口 进 
行 标 准 化 ， 方 式 是 用 窗口 除 以 窗口 总 数 。 

注 5: 实际 上 ， 周 期 可 以 是 无 穷 大 的 ! 广义 连续 傅 里 叶 变 换 提供 了 这 种 可 能 。 离 散 傅 里 叶 变换 通常 定义 在 一 
个 有 限 区 间 上 ， 这 个 区 间 就 隐 式 地 定义 了 要 进行 变换 的 时 域 函 数 的 周期 。 换 句 话说， 如 果 执 行 了 反 向 
离散 傅 里 叶 变 换 ， 就 一 定 能 得 到 一 个 周期 性 信号 。 
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4.4 ”实现 


SciPy 在 scipy.fftpack 模块 中 提供 了 离散 傅 里 叶 变 换 功 能 。 除 此 之 外 ， 它 还 提供 了 以 下 与 
离散 傅 里 叶 变 换 相 关 的 功能 。 
e fft、 fft2、fftn 
在 一 维 、 二 维和 维 空间 中 用 快速 傅 里 叶 变 换算 法 计算 离散 傅 里 叶 变 换 。 
e ifft、 ifft2、ifftn 
计算 反 向 离散 傅 里 叶 变 换 。 
e dct、 idct、 dst、 idst 
计算 余弦 和 正弦 变换 ， 及 其 反 变换 。 
e fftshift、 ifftshift 
fftshift 将 零 频 分 量 平移 到 频谱 中 心 ，ifftshift 则 撤销 fftshift 的 效果 〈 稍 后 会 做 更 
多 介绍 )。 
。 fftfreg 
返回 离散 傅 里 叶 变 换 采 样 频率 。 
e rfft 
计算 一 个 实数 序列 的 离散 傅 里 叶 变换 ， 它 用 结果 频谱 的 对 称 性 来 提高 性 能 ， 应 用 时 实际 
上 使 用 的 还 是 fft。 
NumPy 中 的 以 下 函数 是 对 这 个 列表 的 良好 补充 : np.hanning、np.hamming、np.bartlett、 
np.bLackman、np.kaiser。 它 们 都 是 加 窗 国 数 。 


还 可 以 通过 scipy.signal.fftconvolve 用 离散 傅 里 时 变换 对 大 量 输入 执行 快速 卷 积 操作 。 


SciPy 包装 了 Fortran 的 FFTPACK 库 一 一 它 不 是 最 快 的 ， 但 和 FEFTW 这 些 包 不 同 ， 它 有 宽 
公式 的 免费 软件 许可 。 


4.5 选择 离散 傅 里 叶 变换 的 长 度 


基本 的 离散 传 里 叶 变换 计算 需要 O(N”) 个 操作 。 为 什么 呢 ? 你 有 N (复数 ) 个 具有 不 同 频 
率 的 正弦 波 (2rxfx 0，2rfx 1，2rfx2，…，2rfx (V 一 1))， 而且 你 还 想 知 道 信号 间 的 彼此 
联系 有 多 强 。 从 第 一 个 信号 开始 ， 你 要 用 信号 做 点 积 (这 一 步 就 需要 NN 次 乘法 操作 )。 这 
个 操作 要 重复 NN 次 ， 每 个 正弦 波 都 要 做 一 次 ， 因 此 需要 N 次 操作 。 


对 比 之 下 ， 快 速 傅 里 叶 变 换 在 理想 情况 下 是 O(N log N)， 因 为 它 可 以 聪明 地 重用 计算 ,这 
一 项 重大 改进 ! 但 是 ，FFTPACK 中 实现 的 经 典 Cooley-Tukey 算法 (SciPy 使 用 的 就 是 













































































注 6: 在 计算 机 科学 中 ， 算 法 的 计算 成 本 通常 用 “大 O” 表 示 法 来 表示 。 这 种 表示 法 告诉 我 们 算法 运行 时 间 
是 如 何 随 着 元 素数 目的 增长 而 增加 的 。 如 果 一 个 算法 是 O(N) 的 ， 那 么 其 运行 时 间 随 着 输入 元 素数 目 而 
线性 增加 〈 例 如 ， 在 未 排序 列表 中 搜索 特定 值 是 O(N) 的 )。 冒 泡 排序 是 OOV ) 算法 的 一 个 示例 ， 实 际 执 
行 的 运算 数目 理论 上 是 N+ 1/2N， 这 表明 算法 的 计算 成 本 是 随 着 输入 元 素数 目的 平方 而 增加 的 。 
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这 种 算法 ) 递归 地 将 变换 过 程 分 解 成 很 多 更 小 的 〈 质 数 长 度 ) 变换 过 程 ， 这 种 改进 只 能 
在 “ 平 请 ”的 输入 长 度 上 表现 出 来 〈( 当 输入 长 度 的 最 大 质 因 数 很 小 时 ， 就 认为 其 是 平 请 
的 ， 如 图 4-5 所 示 )。 对 于 较 大 质数 长 度 的 过 程 ， 可 以 将 Bluestein 或 Radar 算法 与 Cooley- 
Tucky 算法 配合 使 用 ， 但 FFTPACK 中 没有 实现 这 种 优化 。” 


接 下 来 演示 一 下 。 











import time 


from scipy import fftpack 
from sympy import factorint 


K = 1000 
lengths = range(250, 260) 


# 计算 所 有 输入 长 度 的 平滑 度 


smoothness = [max(factorint(i).keys()) for i in Lengths] 





exec_times = [] 
for i in Lengths : 
z = Np.random.random(i) 


# 对 于 每 个 输入 长 度 i， 执 行 K 次 快速 傅 里 叶 变 换 ， 并 保存 运行 时 间 


times = [] 

for k in range(K): 
tic = time.monotonic() 
fftpack.fft(z) 
toc = time.monotonic() 
times.append(toc - tic) 


# 对 于 每 个 输入 长 度 ， 记 录 下 最 短 的 执行 时 间 


exec_times.append(min(times)) 


f, (ax0, ax1) = plt.subplots(2, 1, sharex=True) 
ax0.stem(lengths, np.array(exec_ times) * 10**6) 
ax0.set_yLabeL('Execution time (hs) ) 


ax1.stem(Lengths，smoothness) 
ax1.set_yLabeL('Smoothness of input length\n(lower is better)') 
ax1.set_XxLabeL('Length of input'); 





注 7: 





虽然 最 好 不 要 重新 实现 现 有 算法 ， 但 有 时 为 了 获得 尽 可 能 快 的 执行 速度 ， 还 是 需要 重新 实现 。 比 如 ， 
Cython 可 以 将 Python 编译 为 C，Numba 可 以 实时 编译 Python 代码 ， 这 些 工 具 可 以 使 我 们 的 工作 更 易 
完成 (速度 也 更 快 )。 如 果 能 够 使 用 GPL 许可 证 软件 ,那么 可 以 考虑 用 PyFFTW 来 执行 快速 傅 里 叶 变换 。 
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图 4-5: 快速 傅 里 叶 变换 执行 时 间 与 不 同 输入 长 度 的 平滑 度 


Cooley-Tukey 算法 的 原理 是 ， 可 以 将 长 度 为 平滑 数字 的 快速 傅 里 时 变换 分 解 为 多 个 较 小 的 
子 变换 ， 完 成 第 一 个 子 变换 后 ， 就 可 以 在 随后 的 计算 中 重用 其 结果 。 这 就 解释 了 为 什么 要 
在 前 面 的 音频 分 段 中 选择 1024 的 长 度 ， 它 的 平 请 度 只 有 2， 因此 可 以 使 用 最 理想 的 “ 基 2 
Cooley-Tukey” 算 法 。 在 计算 快速 傅 里 叶 变 换 时 ， 这 种 方法 只 使 用 (VN/2)logsN = 5120 次 复 
数 乘法 ， 而 不 是 N = 1 048 576 次 。 选 择 X = 2” 可 以 确保 一 个 最 为 平滑 的 Y (因此 可 以 进 
行 最 快 的 快速 传 里 叶 变 换 ) 。 


4.6 更 多 离散 傅 里 叶 变 换 概念 


ee 先 介绍 儿 个 需要 了 解 的 常用 概念 ， 然 后 解决 一 个 实际 问 
: 分 析 雷 达 数 据 中 的 目标 检测 。 


4.6.1 频率 及 其 排序 


由 于 历史 原因 ， 多 数 算法 实现 都 返回 一 个 数组 ， 其 中 的 频率 高 低 起 伏 (参见 本 节 中 的 附注 
栏 “ 离 散 傅 里 叶 变 换 ”， 获取 有 关 频 率 的 更 多 解释 。 例 如 ， 当 进行 一 个 信号 值 都 为 1 的 实 
数 傅 里 叶 变 换 时 ， 输 入 是 一 直 不 变 的 ， 因此 只 在 数组 的 第 项 中 有 一 个 几乎 不 变 的 傅 里 叶 
分 量 (也 称 作 direct current, “DC” 分 量 或 直流 电 ， 即 电学 中 的 术语 “信和 号 平均 值 ”) 。 


from scipy import fftpack 
N = 10 
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fftpack.fft(np.ones(N)) # 第 一 个 分 量 是 np.mean(x) * N 


0.+ 


array([ .+0.]j， 0.j， 
0.-0.j， 


-0.j, 


0.+0.]j， 
0.-0.j, 
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当 在 快速 变化 的 信号 中 使 用 快速 傅 里 叶 变 换 时 ， 可 以 看 到 出 现 了 一 个 高 频 分 量 。 


z = np.ones(10) 
z[::2] = -1 


print(f'Applying FFT to {z}') 
fftpack.fft(z) 


Applying FFT to [-1. 1. -1. 1. -1. 1. -1. 1. -1. 1.] 


array([ 0.+0.j， 0.+ 0.+0.]j， -10.+0.j, 
j 0.- 


0.j, 0.+0.j 
0.-0.j, 0.j， 0.-0.j 
注意 ， 在 输入 实数 的 情况 下 ， 快 速 傅 里 叶 变 换 返 回 一 个 共 斩 对 称 的 复数 频谱 〈 即 实数 部 分 
对 称 ， 虚 数 部 分 反对 称 ) 。 


x = np.array([1, 5, 12, 7, 3, 0, 4, 3, 2, 8]) 
X = fftpack.fft(x) 





np.set_printoptions(precision=2) 


print("Real part: ", X.real) 
print("Imaginary part:", X.imag) 


np.set_printoptions() 


Real part: [ 45. 7.09 -12.24 -4.09 -7.76 -1. -7.76 -4.09 -12.24 
7.09] 

Imaginary part: [ 0. -10.96 -1.62 12.03 6.88 0. -6.88 -12.03 1.62 
10.96] 


(再 次 强调 ， 第 一 个 分 量 是 np.mean(x) * Ne。) 
fftfreq 函数 显示 哪个 频率 需要 特别 关 广 。 
fftpack.fftfreq(10) 
array([ 0. ， 0.1, 0.2, 0.3, 0.4, -0.5， -0.4， -0.3, -0.2, -0.1]) 
结果 显示 ， 最 大 分 量 发 生 在 0.5 个 采样 周期 的 频率 上 。 这 与 输入 吻合 ， 输 入 是 每 秒 采样 一 
次 的 负 一 正 一 循环 。 


有 了 时 为 了 便于 查看 ， 需 要 稍微 重组 一 下 频谱 ， 比 如 从 高 负 位 置 平移 到 从 低 到 高 的 正 位 置 
(当前 不 对 负 频 率 的 概念 做 更 多 探讨 ， 了 解 实际 的 正弦 波 由 正 频 率 和 负 频 率 的 组 合 产 生 就 
可 以 了 )。 可 以 用 fftshift 函数 来 重组 频谱 。 























离散 傅 里 时 变换 
如 果 可 以 通过 时 间 函 数 x(D) (或 其 他 变量 的 函数 ， 依 具体 应 用 而 定 ) 得 到 一 个 等 间隔 
的 N 个 实数 或 复数 的 采样 序列 各，zi，…，xxwi， 则 离散 傅 里 时 变换 可 以 用 以 下 求 和 公 
式 将 这 个 序列 转换 为 N 个 复数 即 的 序列 。 








XX = k=0, 1, ->N-l1 








如 果 已 知 数值 思 ， 那 么 反 向 离散 伟 里 叶 变 换 可 以 用 以 下 求 和 公式 精确 地 还 原 采 样 值 x。 


x = ee 
记 住 @ = cosg+j sin G6， 由 后 一 个 公式 可 知 ， 离 散 传 里 叶 变 换 可 以 将 序列 xx, 分解 为 一 个 
系数 为 马 的 复数 离散 传 里 叶 序列 。 比 较 一 下 离散 传 里 叶 变 换 和 连续 复数 传 里 叶 序列 。 


x(t) 2 Si Ce 


离散 传 里 叶 变换 是 有 限 序列 ， 其 W 个 项 定义 在 区 间 [0, 2m (包括 0， 不 包括 2x) 中 角 
度 (wot,) = 2rN 的 等 间隔 离散 实例 上 上。 这样 可 以 自动 对 离散 傅 里 叶 变 换 进 行 标 准 化 ， 
使 时 间 不 会 显 式 地 出 现在 正 向 变换 或 反 向 变换 中 。 


如 果 初 始 函 数 x(1D) 的 频率 被 限制 为 小 于 采样 频率 的 一 半 ( 即 所 谓 的 奈奈 斯 特 频率 ， 
Nyquist frequency) ， 那 么 由 反 向 离散 伟 里 叶 变 换 产 生 的 采样 值 之 间 的 插值 通常 可 以 准 
确 地 重建 x( 四 。 如 果 x(t) 不 满足 这 个 限制 ， 那 么 通常 不 能 用 反 向 离散 传 里 叶 变 换 通过 插 
值 重建 xD)。 注 意 ， 这 个 限制 并 不 意味 着 没有 方法 进行 这 种 重建 ， 因 为 还 可 以 使 用 压 
缩 感知 或 有 限 创 新 率 抽样 等 方法 。 


函数 ex = (ep = 姑 取 的 是 复 平面 中 单位 加 上 0 和 2r(VN-lJUV 之 间 的 离散 值 。 函 数 
el =wr 围绕 原点 旋转 n(N-1)/N 次 ， 产 生出 n=1 的 基础 正弦 波 的 谐 波 。 


对 于 偶数 N， 当 n>N/2 时 ， 定 义 离散 传 里 叶 变 换 的 方式 导致 了 一 些微 妙 之 处 。 图 4-6 中 
的 函数 er 是 按 上 值 增加 的 方式 绘制 的 ， 表 示 的 情形 是 从 n=1 到 n=N-1, N=16。 


当天 增加 到 上 + 工时， 角度 增加 了 2xn/N。 当 n= 1 时 ,， 步 长 为 2XW/N。 当 n=N--1 时 ， 
角度 每 次 增加 2x(N 一 1)/N = 2r 一 2xn/N。 因 为 2f 正好 是 绕 圆 一 周 ， 所 以 步 长 等 于 - 2m/ 
N， 实 际 上 是 个 负 频 率 方向 。 小 于 N/2 的 分 量 表示 正 频率 分 量 ， 而 那些 大 于 M2 小 于 
N 一 1 的 分 量 则 表示 负 频 率 分 量 。 对 于 偶数 N，N/2 分 量 的 角度 增 量 对 于 每 个 上 的 增 量 
来 说 都 是 正好 绕 一 个 半圆 ， 因 此 了 既 可 以 认为 它 是 一 个 正 频 举 ， 也 可 以 认为 它 是 一 个 负 
频率 。 这 个 离散 传 里 叶 变 换 的 分 量 表 示 奈 奎 斯 特 频 率 ( 即 采 样 频率 的 一 半 ) ， 可 用 于 在 
查看 离散 传 里 叶 变 换 图 时 做 自我 定位 。 


快速 传 里 叶 变 换 只 是 一 种 计算 离散 傅 里 叶 变 换 的 特殊 而 高 效 的 算法 。 直 接 计算 离散 傅 
里 叶 变 换 所 需 的 计算 量 是 NV 级别， 而 快速 传 里 叶 变换 算法 的 计算 量 只 有 N log N。 快 
速 传 里 叶 变换 对 离散 传 里 叶 变换 在 实时 应 用 中 的 广泛 普及 起 到 了 关键 作用 ，2000 年 被 
TEEE Journal Computing in Science @& Engineering 评选 为 20 世纪 十 大 算法 之 一 。 




















注 8: 我 们 给 你 留 的 练习 是 ， 想 象 一 下 为 奇数 的 情况 。 本 章 中 的 所 有 示例 使 用 的 都 是 偶数 次 离散 传 里 叶 
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图 4-6: 单位 圆 采样 











检查 一 下 带 噪声 的 图 像 ( 见 图 4-7) 中 的 频率 分 量 。 注 意 ， 虽 然 一 幅 静态 图 像 中 没有 随时 
间 变 化 的 分 量 ， 但 其 值 却 可 以 随 空 间 变 化 。 离 散 傅 里 叶 变 换 既 可 以 应 用 于 时 间 ， 也 可 以 应 
用 于 空间 。 


首先 ， 载 和 并 显示 图 像 。 


from skimage import io 
image = io.imread('images/moonlanding.png') 
M, N = image.shape 











f, ax = plt.subplots(figsize=(4.8, 4.8)) 
ax.imshow(image) 


print((M, N), image.dtype) 
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不 要 调整 你 的 显示 器 ! 你 看 到 的 就 是 真实 的 图 像 ， 只 不 过 要 么 是 拍摄 设备 的 问题 ， 要 么 是 
传输 设备 的 问题 ， 图 像 显然 被 扭曲 变形 了 。 





为 了 检查 这 幅 图 像 中 的 频谱 ， 要 使 用 fftn (不 是 fft) 来 计算 离散 伟 里 叶 变 换 ， 因 为 它 有 
不 止 一 个 维度 。 二 维 快 速 傅 里 叶 变 换 等 价 于 先 在 行 上 进行 一 维 快速 傅 里 叶 变 换 ， 然 后 再 在 
列 上 进行 一 维 快速 傅 里 叶 变换 ， 反 之 亦 可 。 


F = fftpack.fftn(image) 








F_magnitude 
F_magnitude 


np.abs(F) 
fftpack.fftshift(F_magnitude) 


同样 ， 在 显示 频谱 前 ， 要 取 其 对 数 来 压缩 值 域 。 


f，ax = plt.subplots(figsize=(4.8, 4.8)) 





ax.imshow(np.log(1 + F_magnitude), cmap='viridis', 
extent=(-N // 2, N // 2, -M // 2, M // 2)) 
ax.set title('Spectrum magnitude'); 





Spectrum magnitude 
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注意 频谱 原点 〈 中 心 ) 周围 的 高 值 ， 这 些 系数 描 述 了 图 像 的 低频 或 平滑 部 分 ， 是 照片 中 模 
糊 的 画布 。 高 频 分 量 分 布 在 整个 频谱 中 ， 充 满 了 边 边 角 角 。 高 频 峰值 对 应 周期 性 的 噪声 。 


从 这 张 照片 中 可 以 看 出 ，( 测 量 仪器 造成 的 ) 噪声 是 高 度 周期 化 的 ， 因 此 我 们 希望 通过 删 
除 频 谱 中 的 相应 部 分 以 去 除 噪声 ( 见 图 4-8)。 
抑制 了 峰值 后 ， 图 像 看 起 来 确实 不 一 样 了 ! 

# 将 频谱 中 心 的 一 个 块 区 归 零 

ei 1/2- K:M//2+K,N//2-K:N//2+K]=0 


# 找 出 高 于 第 98 个 百 分 位 数 的 所 有 峰值 
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peaks = F_magnitude < np.percentile(F_magnitude, 98) 


# 将 峰值 平移 回去 ， 靠 近 原 来 的 频谱 
peaks = fftpack.ifftshift(peaks) 





# 制作 一 个 原始 (复数) 频谱 的 副本 
F_dim = F.copy() 


# 将 这 些 峰值 的 系数 设 定 为 0 
F_dim = F_dim * peaks.astype(int) 


# 执行 反 向 傅 里 叶 变 换 以 还 原 图 像 
# 因为 从 一 个 实数 图 像 开 始 ， 所 以 只 检查 输出 的 实数 部 分 
image_filtered = np.real(fftpack.ifft2(F_dim)) 








f, (ax0, ax1) = plt.subplots(2, 1, figsize=(4.8, 7)) 
ax0.imshow(np.log10(1 + np.abs(F_dim)), cmap='viridis') 
ax0.set_ title('Spectrum after suppression') 


ax1.imshow(image filtered) 
ax1.set_titLe('Reconstructed image'); 





Spectrum after suppression 
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图 4-8: 滤波 后 的 登 月 图 像 及 其 频谱 
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4.6.2 ”加 窗 
如 果 检 查 和 矩形 脉冲 的 健 里 叶 变 换 ， 可 以 看 到 频谱 中 有 许多 旁 兴 。 


x = np.zeros(500) 
x[100:150] = 1 


X = fftpack.fft(x) 
f, (ax0, ax1) = plt.subplots(2, 1, sharex=True) 


ax0.plot(x) 
ax0.set_yLim(-0.1，1.1) 


ax1.pLot(fftpack.fftshift(np.abs(X))) 
ax1.set_yLim(-5，55); 
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从 理论 上 来 说 ， 要 想 表示 这 种 突变 信号 ， 你 需要 一 个 无 限 多 的 正弦 波 (频率 ) 组 合 。 它 们 
的 系数 也 有 典型 的 旁 兴 结构 ， 就 像 上 面 的 脉冲 一 样 。 

重要 的 是 ， 离 散 傅 里 叶 变 换 假 设 输入 信号 是 周期 性 的 。 如 果 信 号 不 是 周期 性 的 ， 那 么 这 个 假 
设 可 以 简单 地 认为 ， 在 信号 的 末端 ， 它 会 跳 回 到 开始 的 值 。 思 考 一 下 函数 x())， 如 下 所 示 。 
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我 们 只 在 短 时 间 内 测量 信号 ， 记 为 Tue。 傅 里 叶 变换 假设 x8) = x0)， 信 号 像 虚线 那样 继续 ， 
而 不 是 治 着 实 线 。 这 样 就 在 边缘 产生 了 一 个 大 跳跃 ， 并 在 频谱 中 不 出 所 料 地 引起 了 振荡 。 





= np.linspace(0, 1, 500) 
x = np.sin(49 * np.pi * t) 


X = fftpack.fft(x) 
f, (ax0, ax1) = plt.subplots(2, 1) 


ax0 .plot(x) 
ax0.set_ylim(-1.1, 1.1) 


ax1.plot(fftpack.fftfreq(len(t)), np.abs(X)) 
ax1.set_ylim(0, 190); 
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不 像 预想 的 那样 有 两 条 线 ， 频 谱 中 充 请 了 波峰 。 


可 以 用 加 窗 (windowing) 处 理 来 消除 这 种 效果 ， 即 将 初始 函数 乘 以 一 个 窗口 函数 ， 如 
Kaiser 窗口 K(N, 6)。 下 面 画 出 6 范围 为 0~100 的 Kaiser 窗口 函数 。 


f, ax = plt.subplots() 











N= 10 
beta max = 5 
colormap = plt.cm.plasma 


norm = plt.Normalize(vmin=0, vmax=beta_max) 


lines = [ 
ax.plot(np.kaiser(100, beta), color=colormap(norm(beta))) 
for beta in np.linspace(0, beta_max, N) 
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] 
sm = plt.cm.ScalarMappable(cmap=colormap, Norm=norm) 
sm. A=[] 


plt.colorbar(sm).set_ label(r'Kaiser S$\beta$'); 


号 
1.0 
0.8 
0.6 
0.4 
0.2 
0.0 
0 20 40 60 80 100 


通过 改变 参数 p， 可 以 改变 窗口 的 形状 ， 从 算 形 (8 = 0， 无 加 窗 效 果 ) 窗口 到 能 生成 信号 
的 窗口 ， 这 些 信号 可 以 在 采样 区 间 的 两 个 端点 平滑 地 从 0 开始 增加 ， 再 逐渐 减少 为 0， 这 
样 的 窗口 能 产生 非常 低 的 旁 锥 (典型 的 8 值 在 5~10 范围 内 )。。 

通过 应 用 Kaiser 窗口 ， 可 以 看 到 旁 汶 消 失 歼 尽 ， 但 代价 是 主 汶 有 一 点 变 宽 。 

对 于 以 上 示例 ， 加 窗 效 果 立 竿 见 影 。 


win = np.kaiser(len(t), 5) 
X_win = fftpack.fft(x * win) 





WwW 上 
Kaiser 8 
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plt.plot(fftpack.fftfreq(len(t)), np.abs(X_win)) 
plt.ylim(0, 190); 























注 9: 经 典 的 加 窗 函 数 包括 Hann、Hamming 和 Blackman。 它 们 的 不 同 之 处 在 于 旁 办 的 水 平和 主办 的 宽度 
(在 传 里 叶 域 中 ) 。Kaiser 窗口 是 一 种 现代 的 灵活 的 窗口 函数 , 对 于 多 数 应 用 来 说 , 它 都 是 近似 最 优 的 。 
它 是 对 最 优 椭 球 窗口 的 良好 近似 ， 将 大 多 数 能 量 都 集中 在 主 欠 上 。 像 原文 中 演示 的 那样 ， 通 过 调整 参 
数 6， 可 以 调整 Kaiser 窗口 ， 使 其 适合 具体 的 应 用 。 
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4.7 ”实际 应 用 : 分 析 雷 达 数 据 
线性 调制 的 调频 连续 波 (FMCW，frequency-modulated continuous-wave) 雷达 大 量 使 用 了 
快速 侍 里 叶 变 换算 法 进行 信号 处 理 ， 并 提供 了 各 种 各 样 的 快速 依 里 叶 变 换 应 用 示例 。 我 们 
将 用 来 自 于 FMCW 雷达 的 真实 数据 演示 一 个 快速 传 里 叶 变 换 应 用 ， 目标 检测 。 
FMCW 雷达 的 工作 原理 大 致 如 下 所 示 (更 多 信息 参见 本 节 的 附注 栏 “ 简 单 的 FMCW 雷达 
系统 ”和 图 4-9)。 


(1) 变频 信号 产生 后 会 被 雷达 天 线 发 射出 去 ， 然 后 沿 着 远离 雷达 的 方向 向 外 传输 。 当 碰 到 茶 
个 物体 时 ， 部 分 信号 被 反射 回 雷 达 。 接 收 到 反射 信号 后 ， 雷 达 将 信号 乘 以 一 个 发 射 信号 
的 副本 ， 并 进行 采样 ， 将 其 转换 为 数值 ， 并 保存 在 一 个 数组 中 。 我 们 的 任务 就 是 解释 这 
些 数值 ， 以 得 到 有 意义 的 结果 。 

(2) 上 面 的 相 乘 步骤 非常 重要 。 回 忆 一 下 在 学 校 里 学 过 的 三 角 恒 等 式 。 
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(3) 因 此， 如 果 用 发 射 信号 乘 以 接收 信号 ， 就 可 以 预测 在 频谱 中 出 现 两 个 频率 分 量 : 一 个 是 
接收 信号 和 发 射 信号 的 频率 之 差 ， 另 一 个 是 它们 的 频率 之 和 。 

(4 我 们 尤其 对 两 个 信号 的 频率 之 差 感 兴趣 ， 因 为 它 告 诉 我 们 信号 反射 回 雷达 需 要 多 长 时 间 
( 换 名 话说， 物体 离 我 们 有 多 远 ) 的 一 些 信息 。 通 过 对 信号 应 用 低 通 滤波 器 ( 即 可 以 滤 
掉 高 频 的 滤波 器 )， 可 以 丢弃 其 他 信息 。 
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简单 的 FMCW 雷达 系统 











混合 器 








图 4-9: 一 个 简单 的 FMCW 雷达 系统 结构 图 


上 面 给 出 了 一 个 使 用 独立 发 射 天 线 和 接收 天 线 的 简单 FMCW 雷达 结构 图 雷达 包括 一 
个 可 以 产生 正弦 信号 的 波形 发 生 器 ,信号 的 频率 围绕 所 需 频 举 线 性 变化 。 产 生 的 信号 
被 发 射 放大 器 放大 到 所 需要 的 功率 等 级 ， 并 经 由 耦合 器 电路 传递 给 发 射 天 线 ， 境 合 器 
中 还 能 输出 一 份 发 射 信号 的 副本 。 发 射 天 线 以 室 射 速 电磁 波 的 形式 向 需要 探测 的 目标 
发 送 发 射 信号 。 当 电磁 波 遇 到 能 反射 电磁 波 的 物体 时 ， 照 射 到 目标 上 的 一 部 分 能 量 被 
反射 回 接收 系统 ， 成 为 向 雷达 系统 方向 传播 的 另 一 个 电磁 波 。 当 这 个 电磁 波 遇 到 接收 
天 线 时 ， 接 收 天 线 收集 樟 击 到 天 线 上 的 电磁 波 能 量 ， 并 将 其 转换 为 波动 的 电压 ， 提 供 
给 混合 器 。 混 合 器 将 接收 信号 与 发 射 信息 的 副本 相 乘 ， 产 生 一 个 频率 等 于 发 射 信号 和 
接收 信号 频率 之 差 的 正统 波 。 低 通 滤波 器 确保 了 接收 信号 是 频带 限制 的 〈 即 不 包含 那 
些 我 们 不 关心 的 频率 ) ， 接 收效 大 器 将 信号 增强 到 适合 模拟 数字 转换 器 的 振幅 ， 最 后 由 
模拟 数字 转换 器 将 数据 反馈 给 计算 机 。 








总 结 一 下 ， 应 该 注意 以 下 几 点 。 





最 终 输入 计算 机 的 数据 包括 NN 个 使 用 采样 率 f (从 相 乘 后 、 滤 波 后 的 信号 中 ) 进行 采样 
的 样本 。 

返回 信号 的 振幅 随 着 反射 强度 ( 即 由 目标 物体 与 目标 和 雷达 间 的 距离 决定 的 一 个 属性 ) 
的 不 同 而 变化 。 

测定 频率 是 对 目标 物体 与 雷达 间距 离 的 一 种 表示 。 























为 了 分 析 雷 达 数 据 ， 要 生成 一 些 人 造 信号 ， 然 后 再 研究 实际 雷达 的 输出 。 














雷达 以 5 赫 效 / 秒 的 速度 发 射 ， 然 后 不 断 提 高 其 频率 。 经 过 一 段 时 间 上 后， 频率 会 提高 到 
( 见 图 4-10)。 在 同一 时 间 段 内 ， 雷 达 信 和 号 的 传输 距离 为 d=tv 米 ， 其 中 v 是 发 射 信 号 在 空气 
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中 的 速度 (大致 与 光速 相同 








，3x108 米 


/ 秒 )。 
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斜率 S Hz/s Br 
频 
1/ : 
1 
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mn 1 
t, t=t+tt, f 
图 4-10， 一 个 线性 调频 FMCW 雷达 中 的 频率 关系 
根据 上 图 ， 对 于 一 个 距离 为 R 的 目标 ， 可 以 计算 出 信号 到 达 、 反 射 和 返回 需要 的 时 间 。 
tr = 2R/y 
pi = np.pi 
# 雷达 参数 
fs = 78125 # 单位 为 赫兹 的 采样 率 ， 即 每 秒 采 样 78 125 次 
ts=1/fs # 采样 时 间 ， 即 每 ts 秒 采 样 一 次 
Teff = 2048.0 * ts # 2048 次 采样 需要 的 总 时 间 ( 亦 称 有 效 扫 描 时 间 ) ， 单 位 为 秒 





Beff = 100e6 # 雷达 采样 期 间 


# 频率 扫描 率 ， 


# 目标 的 具体 说 明 。 我 们 虚构 了 一 些 
# 离 和 大 小 


S = Beff / Teff 























的 发 射 信号 频率 范 








用 ， 称 为 “有 效 带宽 ”， 单 位 为 赫兹 





单位 为 赫兹 / 秒 


目标 ， 假 设 它们 是 能 被 雷达 探测 到 的 物体 ， 具 有 特定 的 距 








R = np.array([100，137，154，159， 180]) # 距离 (单位 为 米 ) 

M = np.array([0.33，0.2，0.9，0.02，0.1]) # 目标 大 小 

P = np.array([0, pi / 2, pi / 3, pi / 5, pi / 6]) # 随机 选择 的 相位 差 
t = np.arange(2048) * ts # 采样 时 间 

fd=2*S*R/ 3E8 # 这 些 目标 的 频率 差 
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# 生成 5 个 目标 





signals = np.cos(2 * pi * fd * t[:, np.newaxis] + P) 


# 保存 与 第 1 个 目标 相关 的 信号 ， 


v_single = signals[:, 0] 


用 于 后 续 观察 


# 按照 目标 大 小 给 信号 加 权 相 加 ， 以 生成 能 被 雷达 探测 到 的 组 合 信 号 


VvV_sim = np.sum(M * signals, axis=1) 


## 以 上 代码 等 价 于 
# 


# vO = np.cos(2 
# v1 = np.cos(2 
# v2 = np.cos(2 
# v3 = np.cos(2 
# v4 = np.cos(2 
# 


天 综合 起 来 


# v_single = vO 


* 
* 
* 
* 
* 


pi 
pi 
pi 
pi 
pi 


XX A XX XX 交 


fd[0] 
fd[1] 
fd[2] 
fd[3] 
fd[4] 


+ 二 十 十 


pi / 2) 
pi / 3) 
pi / 5) 
pi / 6) 


# v_sim = (0.33 * vO) + (0.2 * v1) + (0.9 * v2) + (0.02 * v3) + (0.1 * v4) 


这 样 就 生成 了 一 个 人 造 信号 Vg。， 探 测 单个 目标 时 可 以 接收 这 个 信号 ( 见 图 4-11)。 通 过 
计算 给 定时 间 段 内 的 循环 数量 ， 可 以 计算 出 信号 的 频率 ， 并 由 此 算出 目标 距离 。 


然而 ， 真 实 雷达 几乎 不 可 能 只 接收 一 个 反射 信号 。 模 拟 信号 Vi 展示 了 有 5 个 不 同 距离 的 
目标 (其 中 包括 两 个 彼此 很 接近 的 目标 ， 分 别 位 于 154 米 和 159 米 ) 的 雷达 信号 的 形式 ， 
Vwal(D 展示 了 一 个 真实 雷达 的 输出 信号 。 将 多 个 回 波 加 在 一 起 时 ， 结 果 几 乎 不 具有 直观 的 
意义 ( 见 图 4-11) ， 除 非 通过 离散 传 里 叶 变换 的 视角 对 其 更 加 仔细 地 审视 。 























Vsim(t), V 


Vieal(t), V 
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图 4-11: 接收 器 输出 信号 ， 从 上 到 下 : 单个 模拟 目标 ，5 个 模拟 目标 ， 实 际 雷 达 数 据 
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存储 格式 ) 中 读 取 。 可 以 月 


上 了 


真实 的 雷达 数据 从 一 个 NumPy 格式 的 .npz 文 件 (一 种 轻 量 
崩 np.savez 和 np.savez_compressed 函数 保存 这 种 文件 。 注 意 ， 











、 跨 平台 、 跨 版 本 兼容 的 





SciPy 的 io 子 模块 还 可 以 非常 轻松 地 读 取 其 他 格式 的 文件 ， 如 MATLAB 和 NetCDF 文件 。 


data = np.load('data/radar_scan_0.npz') 


# 从 radar_scan_g0.npz 文 件 中 加 载 变量 scan 
scan = data['scan'] 


# 数据 集中 包含 多 个 测量 结果 ， 每 个 结果 由 指向 不 同方 向 的 雷达 给 出 。 
# ( 左 - 右 位 置 ) 和 仰角 (上 -下 位 置 ) 上 的 测量 结果 ， 其 形状 为 (2648,) 








v_actual = scan['samples'][5, 14, :] 





H 





| 

















这 里 取 


个 在 特定 方位 角 








# 信号 的 振幅 范围 是 -2.5V~+2.5V。 雷 达 中 的 14 位 模拟 数字 转换 器 可 以 给 











# 出 -8192~8192 的 整数 值 。 通 过 乘 以 (2.5 / 8192)， 可 以 转换 回 | 


v_actual = v_actual * (2.5 / 8192) 

















电压 





因为 .npz 文件 可 以 保存 多 个 变量 ， 所 以 必须 从 中 选择 一 个 :data['scan']。 它 返回 一 个 包 
含 以 下 字段 的 结构 化 NumPy 数组 。 
e time 

64 位 (8 字 节 ) 无 符号 整数 (np.uint64) 


e size 





32 位 (4 字 节 ) 无 符号 整数 (np.uint32) 


e position 


虽然 NumPy 数组 确实 是 同 质 的 ( 即 其 中 所 有 元 素 都 是 同一 类 型 )， 但 这 并 


素 不 能 是 复合 元 素 ， 就 像 这 个 示例 一 样 。 


QZ 
32 位 浮 点 数 (np.fLoat32) 


el 
32 位 浮 点 数 (np.float32) 


region_type 
8 位 (1 字 节 ) 无 符号 整数 (np.uint8) 


region_id 

16 位 (2 字 节 ) 无 符号 整数 (np.uint16) 
gain 

8 位 (1 字 节 ) 无 符号 整数 (np.uint16) 
samples 


2048 个 16 位 (2 字 节 ) 无 符号 整数 (np.uint16) 

















可 以 用 字典 语法 来 访问 独立 的 字段 。 


azimuths = scan['position']['az'] # 得 到 所 有 方位 角 测 量 结 


果 
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总 结 一 下 目前 的 情况 : 测量 结果 (VV, 和 Vw) 


需要 确定 这 些 复合 雷达 信号 的 信号 成 分 。 快 速 全 里 叶 变 换 就 是 我 们 使 用 的 工具 。 


4.7.1 ” 频 域 中 的 信号 性 质 
首先 ， 对 3 个 信号 (单个 人 造 目标 、 多 个 人 造 目 标 、 实 际 目标 ) 进行 快速 傅 
后 显示 出 正 频率 分 量 ( 即 分 量 0~N/2， 见 图 4-12)。 用 雷达 术语 描述 ， 就 是 距离 跟踪 。 


fig, axe 


# 对 信号 


S = 


进行 














plt.subplots(3, 1, sharex=True, figsize=(4.8, 2.4)) 





了 快速 傅 里 叶 变 换 ， 注 意 惯例 ， 在 命名 快速 傅 里 叶 变 换 对 象 时 ， 首 字母 应 大 写 


V_single = np.fft.fft(v_single) 
V_sim = np.fft.fft(v_sim) 
V_actual = np.fft.fft(v_actual) 


N = len(V_single) 


with plt.style.context('style/thinner.mplstyle'): 


dxes 
dxes 
aXes 
dxes 


dxes 
dxes 
dxes 
dxes 
dxes 
dxes 


dxes 


for 


[9 
[9] . 
[9] 
[9] 


[1] 
[1] 
[1] 
[2] 
[2] 
[2] 





[2] 


].plot(np.abs(V_single[:N // 2])) 


set_ylabel("$|V_\mathrm{single}|$") 


.set xlim(0, N // 2) 
.set_ylim(0, 1100) 


.plot(np.abs(V_sim[:N // 2])) 
.set_ylabel("$|V_\mathrm{sim} |$") 
.set_ylim(0, 1000) 


.plot(np.abs(V_actual[:N // 2])) 
.Set_ylim(0, 750) 
.Set _ylabel("$|V_\mathrm{actual}|$") 


.set xlabel("FFT component $n$") 


ax in axes: 
ax.grid() 


是 若干 个 目标 反射 回 的 正弦 信号 的 总 和 ， 


里 叶 变 换 ， 然 








|Vsim| |Vsinele| 


|Vactuall 


Wi 
0 


0 200 400 600 800 1000 
FFT componentn 





图 4-12: 距离 跟踪 ， 从 上 到 下 : 单个 模拟 目标 ， 多 个 模拟 目标 ;真实 目标 
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信息 突然 变 得 有 意义 了 。 

根据 | 多 | 的 图 形 ， 可 以 清楚 地 看 出 分 量 67 处 有 一 个 目标 。|V;,| 的 图 形 显 示 了 多 个 目标 ， 
它们 产生 的 信号 无 法 在 时 域 中 解释 。 真 实 雷 达 信和 号 |V.wwal 显示 ， 分 量 400~500 范围 内 有 大 
量 目标 ， 而 且 分 量 443 处 有 一 个 大 的 峰值 。 这 恰好 是 雷达 信号 遇 到 一 个 露天 矿 的 高 墙 后 返 
回 的 回 波 。 

为 了 从 图 中 得 到 有 用 的 信息 ， 必 须 确 定 距离 ! 我们 还 是 使 用 公式 。 





| 





















































用 雷达 术语 来 说 ， 每 个 离散 传 里 叶 变换 分 量 都 称 为 距离 箱 。 


这 个 公式 还 定义 了 雷达 的 距离 分 辨 率 : 只 有 那些 由 多 于 2 个 的 距离 箱 分 离 出 来 的 目标 才 是 
可 辨识 的 ， 如 下 所 示 。 











这 是 所 有 类 型 的 雷达 的 一 个 基本 性 质 。 


这 个 结果 非常 令 人 满意 ， 但 是 这 个 动态 距离 的 变化 范围 大 大 了 ， 很 容易 错过 一 些 波 峰 ， 因 
此 做 一 下 对 数 变换 ， 就 像 前 面 在 频谱 图 中 所 做 的 那样 。 


c = 3e8 # 电磁 波 在 空气 中 传播 的 速度 大 致 等 于 光速 







































































fig, (ax0, ax1, ax2) = plt.subplots(3, 1) 


def dB(y): 
"Calculate the Log ratio of y / max(y) in decibel." 


y = np.abs(y) 
y /= y.max() 


return 20 * np.Log10(y) 


def log_plot normalized(x, y, ylabel, ax): 
ax.plot(x, dB(y)) 
ax.set_ylabel(ylabel) 
ax.grid() 


rng = np.arange(N // 2) * c / 2 / Beff 


with pLt.styLe.context('styLe/thinner .mpLstyLe ' ) : 
Log_pLot_normaLized(rng，V_singLe[:N // 2], "$IV_0|$ [dB]", ax0) 














注 10: 即 图 中 的 | 六 jj。 一 一 译 者 注 
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Log_pLot_normaLized(rng，V_sim[:N // 2], "$IV_5|$ [dB]", ax1) 
log_plot_normalized(rng, V_actual[:N // 2], "$IV_{\mathrm{actual}}|$ [dB]" 
，ax2) 





ax0.set_xLim(0，300) # 修改 这 些 图 形 的 x 轴 范围 ， 
ax1.set_xLim(0，300) # 以 便 更 清楚 地 看 到 波峰 形状 
ax2.set_xlim(0, len(V_actual) // 2) 
ax2.set_xlabel('range') 
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这 些 图 形 可 以 更 好 地 说 明 可 探测 的 动态 距离 。 例 如 ， 在 真实 雷达 信号 中 ， 雷 达 的 噪声 基底 
变 得 可 见 了 〈 也 就 是 说 ， 雷 达 探 测 目标 的 能 力 受 到 了 系统 内 的 电子 噪声 水 平 的 限制 ) 。 


4.7.2 ”加 窗 之 后 

虽然 已 经 取得 了 很 大 进展 ， 但 还 是 没 能 在 模拟 信号 的 频谱 中 区 分 出 154 米 和 159 米 处 的 波 
峰 。 谁 知道 我 们 在 真实 信号 中 错过 了 什么 呢 ! 为 了 凸显 出 波峰 ， 再 看 看 其 他 方法 ， 使 用 一 
下 加 窗 函 数 。 

以 下 示例 中 的 信号 通过 B=6.1 的 Kaiser 函数 进行 了 加 窗 。 


f, axes = plt.subplots(3, 1, sharex=True, figsize=(4.8, 2.8)) 


























t_ms = t * 19000 # 采样 时 间 ， 单 位 为 毫秒 
w = np.kaitser(N，6.1) # Kaiser 加 窗 国 数 ，8 = 6.1 
for n, (signal, label) in enumerate([(v_singte，r'Sv 0 [V]$'), 


(v_sim, r'$v_5 [V]$'), 
(v_actual, r'$v_{\mathrm{actual}} [V]$')]): 
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with plt.style.context('style/thinner.mplstyle'): 
axes[n].plot(t_ms, w * signal) 
axes[n].set_ylabel(label) 
axes[n] .grid() 


axes[2].set xlim(0, t_ms[-1]) 
axes[2].set_xlabel('Time [ms]'); 
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相应 快速 全 里 叶 变 换 结果 的 雷达 术语 为 “距离 跟踪 ”。 


V_single win = np.fft.fft(w * v_single) 
V_sim win = np.fft.fft(w * v_sim) 
V_actual_win = np.fft.fft(w * v_actual) 


fig, (ax0, ax1,ax2) = plt.subplots(3, 1) 


with plt.style.context('style/thinner.mplstyle'): 
log_plot normalized(rng, V_single win[:N // 2]， 
r"$|IV_{0,\mathrm{win}}|$ [dB]", ax0) 
log_plot_normalized(rng, V_sim win[:N // 2]， 
r"$|IV_{5,\mathrm{win}}|$ [dB]", ax1) 
log_plot_normalized(rng, V_actual_win[:N // 2]， 
r"$IV_\mathrm{actual,win}|$ [dB]", ax2) 

















T 


> 


axg.set_xLim(0，300) # 修改 这 些 图 形 的 x 轴 范 转 
ax1.set_xLim(0，300) # 以 便 更 清楚 地 看 到 波峰 











状 





ax1.annotate("New, previously unseen!", (160, -35), xytext=(10, 15), 
textcoords="offset points", color='red', size='x-small', 
arrowprops=dict(width=0.5, headwidth=3, headlength=4, 

fc='k', shrink=0.1)); 
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可 以 将 这 儿 个 图 和 前 面 的 距离 跟踪 比较 一 下 。 它 们 显著 降低 了 旁 兴 水 平 ， 但 代价 是 波峰 形 
状 发 生 了 改变 ， 变 宽 了 一 些 ， 而 且 不 那么 尖锐 ， 由 此 降低 了 雷达 的 分 状 率 ， 即 雷达 分 辨 两 
个 间隔 很 近 的 目标 的 能 力 。 选 择 窗口 函数 时 ， 要 在 旁 兴 水 平和 分 辨 率 之 间 进 行 权衡 。 尽 管 
如 此 ， 从 对 V;, 的 跟踪 结果 来 看 ， 加 窗 还 是 很 有 效果 的 ， 它 显著 提高 了 分 辨 邻近 大 目标 的 
小 目标 的 能 力 。 


在 真实 雷达 数据 的 距离 跟踪 中 ， 加 窗 同 样 也 会 降低 旁 欠 水平 。 从 两 组 目标 间 的 缺口 深度 来 
看 ， 这 一 点 更 加 明显 。 


4.7.3 ”雷达 图 像 
了 人 解 如 何 分 析 单 一 维度 的 距离 跟踪 数据 后 ， 接 下 来 看 看 如 何 分 析 和 雷达 图 像 。 


数据 是 由 带 有 抛物 线 反 射 面 天 线 的 雷达 生成 的 ， 这 种 雷达 可 以 在 半 功 率 点 之 间 以 2 度 的 分 
散 角 发 出 高 度 指向 式 的 模 截 面 为 圆 形 的 笔 形 波束 。 当 垂直 照射 到 一 个 平面 时 ， 雷 达 会 在 60 
米 距 离 处 照射 出 一 个 直径 为 2 米 的 圆 形 区 域 。 在 这 个 圆 形 区 域外 ， 能 量 会 迅速 减少 ， 但 还 
是 能 够 探测 到 这 个 区 域 之 外 的 强 回 波 。 


通过 改变 笔 形 波束 的 方位 角 (左右 位 置 ) 和 仰角 (上 一 下 位 置 )， 可 以 扫描 感 兴趣 的 目 
标 区 域 。 当 收 到 反射 信号 时 ， 可 以 计算 出 反射 物 (被 雷达 信号 击 中 的 物体 ) 的 距离 ， 结 合 
当前 笔 形 波束 的 方位 角 和 仰角 ， 就 可 以 确定 这 个 反射 物 的 三 维 位 置 。 
一 个 岩石 边 坡 包 含 数 以 千 计 的 反射 物 。 我 们 可 以 认为 距离 箱 是 沿 着 崎 岂 表 面 与 边 坡 相 交 
的 、 中 心 带 有 雷达 信号 的 大 球 。 在 这 个 距离 箱 中 ， 相 交 线 上 的 散射 体会 产生 反射 。 雷 达 的 
波长 (发 射 波 在 一 个 震荡 周期 内 的 传播 距离 ) 大 约 是 30 毫米 。 如 果 散 射 体 之 间 的 距离 是 
1/4 波 长 (大约 7.5 毫米 ) 的 奇数 倍 ， 那 么 它们 的 反射 信号 会 因为 彼此 间 的 干涉 而 减弱 。 如 
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果 散 射 体 之 间 的 距离 是 1/2 波长 的 整数 倍 ， 那么 它们 的 反射 信号 会 因为 彼此 间 的 干涉 而 增 
强 。 这 些 反 射 信 号 可 以 组 合 产 生 一 个 明显 的 强 反 射 区 域 。 这 种 雷达 通过 转动 天 线 来 扫描 小 
型 区 域 ， 转 动 的 方位 角 范 围 是 20 度 ， 仰 角 范 围 是 30 度 ， 每 次 转动 0.5 度 。 

现在 画 出 最 终 雷达 数据 的 轮廓 图 。 来 看 看 不 同方 向 上 的 数据 切片 〈 见 图 4-13)。 第 一 个 是 
某 个 距离 上 的 切片 ， 表 示 随 仰角 和 方位 角 变 化 的 回 波 强度 。 另 外 两 个 切片 分 别 是 某 个 仰角 
和 某 个 方位 角 上 的 切片 ， 可 以 表示 出 坡度 ( 见 图 4-13 和 图 4-14)。 可 以 在 方位 角 图 中 看 到 
一 个 露天 矿 高 墙 的 层 秋 结构 。 




















仰角 (elevation ) 














图 4-13: 图 中 显示 了 对 数据 卷 的 方位 角 切 片 、 仰 角 切 片 和 距离 切片 


data = np.load('data/radar_scan_1.npz') 
scan = data['scan '] 


# 信号 的 振幅 范围 是 -2.5V~+2.5V。 雷 达 中 的 14 位 模拟 数字 转换 器 可 以 给 出 -8192~8192 的 整数 值 
# 通过 乘 以 (2.5 / 8192)， 可 以 转换 回电 压 























v = scan['samples'] * 2.5 / 8192 
win = np.hanning(N + 1)[:-1] 


# 对 每 个 测量 结果 进行 快速 傅 里 叶 变 换 
V = np.fft.fft(v * win, axis=2)[::-1, :, :N // 2] 


contours = np.arange(-40, 1, 2) 


# 忽略 MPL 布 局 警告 





图 灵 社 区 会 员 ChenyangGao(2339083510@qd.com) 专 享 尊重 版 权 


import warnings 
warnings.filterwarnings('ignore', '.*Axes.*compatible.*tight_ layout.*') 


f, axes = plt.subplots(2, 2, figsize=(4.8, 4.8), tight_layout=True) 
labels = ('Range', 'Azimuth', 'Elevation') 


def plot_ slice(ax, radar_slice, title, xlabel, ylabel): 
ax.contourf(dB(radar_slice), contours, cmap='magma_r') 
ax.set title(title) 
ax.set xlabel(xlabel) 
ax.set_ylabel(ylabel) 
ax.set_facecolor(plt.cm.magma_r(-40)) 


with plt.style.context('style/thinner.mplstyle'): 
plot_slice(axes[0, 0], V[:, :, 250], 'Range=250', 'Azimuth', 'Elevation') 
plot_slice(axes[0, 1], V[:, 3, :], 'Azimuth=3', 'Range', 'Elevation') 
plot_slice(axes[1, 0], V[6, :, :].T, 'Elevation=6', 'Azimuth', 'Range') 
axes[1, 1].axis('off') 
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4-14: 不 同 坐标 轴 上 的 距离 跟踪 轮廓 图 ( 见 图 4-13) 
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三 维 可 视 化 

还 可 以 实现 三 维 数据 的 可 视 化 〈 见 图 4-15)。 

首先 计算 出 距离 方向 上 的 argmax 〈 最 大 值 索 引 ) ， 它 可 以 表示 出 雷达 波束 击 中 岩石 边 坡 的 
距离 。 然 后 将 每 个 argmax 索引 转换 为 三 维 坐 标 (仰角 一 方位 角 一 距离 )。 


rr = Np.argmax(V, axis=2) 














el, az = np.meshgrid(*[np.arange(s) for s in r.shape], indexing='ij') 


axis_labels = ['Elevation', 'Azimuth', 'Range'] 

coords = np.column_stack((el.flat, az.flat, r.flat)) 
通过 使 用 这 些 坐 标 ， 可 以 将 它们 投影 到 方位 角 一 仰角 平面 上 (丢弃 距离 坐标 )， 并 用 德 洛 
内 方法 进行 曲面 细 分 。 这 种 曲面 细 分 会 返回 一 组 能 表示 三 角形 (或 单纯 形 ) 的 坐标 。 但 严 
格 来 说 ， 这 种 三 角形 是 用 投影 坐标 定义 的 ， 用 初始 坐标 进行 重 构 ， 将 距离 分 量 加 回来 。 


from scipy import spatial 





























马 











d = spatial.Delaunay(coords[:, :2]) 
simplexes = coords[d.vertices] 


为 了 便于 显示 ， 我 们 将 距离 轴 放 在 最 前 面 。 


coords = np.roll(coords, shift=-1, axis=1) 
axis_labels = np.roll(axis_ labels, shift=-1) 


看 可 以 使 用 Matplotlib 的 trisurf 函数 将 结果 可 视 化 。 


# 这 个 导入 语句 用 于 初始 化 MatptLotLib 的 三 维 机 制 
from mpl_toolkits.mplot3d import Axes3D 
































| 
































# 设置 三 维 轴 
f, ax = plt.subplots(1, 1, figsize=(4.8, 4.8), 
subplot_kw=dict(projection="'3d')) 


with plt.style.context('style/thinner.mplstyle'): 
ax.plot_ trisurf(*coords.T, triangles=d.vertices, cmap='magma_r') 


a 


x 


.set xlabel(axis labels[0]) 
ax.set_ylabel(axis_labels[1]) 
ax.set zlabel(axis_ labels[2], labelpad=-3) 
ax.set_xticks([0, 5, 10, 15]) 


xx 


# 调整 相机 位 置 以 匹配 上 图 


ax.view init(azim=-50); 
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图 4-15: 岩石 边 坡 位 置 估计 的 三 维 可 视 化 


4.7.4 快速 傅 里 叶 变换 的 进一步 应 用 

以 上 示例 只 展示 了 快速 传 里 叶 变 换 在 雷达 系统 中 的 一 种 应 用 。 快 速 倩 里 叶 变换 还 有 很 多 其 
他 用 途 ， 比 如 运动 (多 普 勒 ) 测量 和 目标 识别 。 快 速 传 里 叶 变换 无 处 不 在 ， 从 MRI 到 统计 
学 ， 都 可 以 看 到 其 应 用 。 学 习 完 本 章 介绍 的 基本 技术 后 ， 你 应 该 可 以 熟练 地 掌握 并 使 用 这 
种 技术 。 


4.7.5 更 多 阅读 

关于 傅 里 叶 变换 的 图 书 如 下 所 示 。 

。 PAPOULIS A. The Fourier integral and its applications [M]. New York: McGraw-Hill, 1900. 

。 BRACEWELL R A. The Fourier transform and its applications [M]. New York: McGraw-Hill， 
1986. 

关于 雷达 信号 处 理 的 图 书 如 下 所 示 。 

。 RICHARDS M A, SCHEER J A, HOLM W A. Principles of modern radar: basic Principles [G]. 


Raleigh, NC: SciTech, 2010. 
。 RICHARDS M A. Fundamentals of radar signal processing [M]. New York: McGraw-Hill, 


2014. 
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4.7.6 练习 : 图像 卷 积 

快速 侍 里 叶 变 换 经 常用 于 加 速 图 像 卷 积 ( 卷 积 是 滑动 滤波 器 的 一 种 应 用 )。 可 以 通过 

NumPy 的 np.convolve 函数 或 者 np.fft.fft2 函数 使 用 np.ones((5，5)) 对 图 像 进行 卷 积 。 

确认 它们 的 结果 是 相同 的 。 

以 下 是 一 些 提示 。 

。 x 和 y 的 卷 积 等 价 于 ifft2(X * Y)， 其 中 X 和 YY 分别 是 x 和 y 的 快速 傅 里 时 变换 。 

。 为 了 使 Xx 和 Y 相 乘 ， 它们 必须 是 同样 大 小 。 对 x 和 y 进行 快速 傅 里 叶 变 换 前 ，np.pad 用 
0 (向 右 侧 和 下 方 ) 扩展 x 和 y。 

。 你 可 能 会 看 到 一 些 边缘 效应 。 可 以 增加 补 0 的 宽度 来 消除 这 种 效应 ， 使 x 和 y 的 维度 都 
是 shape(x) + shape(y) - 1。 


参见 附录 A.5 节 。 
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我 喜欢 稀 蕉 性 。 它 有 一 种 特质 ， 可 以 通过 最 少 的 情感 创造 出 一 种 非常 直接 的 冲 
击 ， 并 且 独 一 无 二 。 我 可 能 将 一 直 使 用 这 种 原则 来 工作 ， 我 也 不 知道 为 什么 。 
Britt Daniel，Spoon 乐队 主唱 


现实 世界 中 的 很 多 和 抢 阵 都 是 稀疏 的 ， 这 意味 着 其 中 的 多 数 元 素 为 零 。 


用 NumPy 数组 处 理 稀 朴 矩阵 会 浪费 大 量 时 间 和 精力 ， 因 为 要 用 很 多 元 素 乘 以 零 。 相 反 ， 
我 们 可 以 用 SciPy 的 sparse 模块 来 有 效 地 处 理 稀 距 矩阵 ， 它 只 检查 那些 非 零 的 元 素 。 除 了 
解决 这 些 “ 和 典型 的 ” 稀 距 矩阵 问题 ，sparse 还 可 以 用 于 解决 那些 与 稀 玻 怎 阵 并 非 明 显 相 关 
的 问题 。 


图 像 分 割 的 比较 就 是 这 种 问题 的 一 个 示例 。( 复 习 一 下 第 3 章 中 图 像 分 割 的 定义 。) 


本 章 的 开场 示例 代码 中 使 用 了 两 次 稀 玻 和 矩阵。 首先 ， 用 Andreas Mueller 推荐 的 代码 计算 一 
个 列 联 矩 阵 (contingency matrix) ， 这 个 矩阵 为 两 个 分 区 间 的 标签 对 应 提供 计数 。 然 后 ， 根 
据 Jaime Fernindez del Rio 和 Warren Weckesser 的 建议 ， 用 列 联 和 矩阵 计算 信息 变异 ， 它 可 
以 用 来 衡量 分 区 间 的 差异 。 
def variation_of_ informatton(x，y): 

# 计算 列 联 矩 阵 ， 即 联合 概率 矩阵 

n = x.size 

Pxy = sparse.coo_matrix((np.full(n, 1/n), (x.ravel(), y.ravel())), 

dtype=float).tocsr() 


















































# 计算 边际 概率 ， 转 换 为 一 维 数组 
px = np.ravel(Pxy.sum(axis=1)) 
py = np.ravel(Pxy.sum(axis=0)) 


# 先 用 稀 玻 矩阵 线性 代数 计算 VI， 计 算 反 对 角 和 矩阵 
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Px_inv 
Py_inv 


# 然后 计算 出 炉 
hygx = px @ xLog1x(Px_inv @ Pxy).sum(axis=1) 
hxgy = XLog1x(Pxy @ Py_inv).sum(axis=0) @ py 


sparse.diags(invert_nonzero(px)) 
sparse.diags(invert_nonzero(py)) 





# 返回 它们 的 和 
return float(hygx + hxgy) 








Python 3.5 增强 特性 

上 述 代 码 中 的 @ 符 号 表示 2015 年 引入 Python 3.5 的 矩阵 乘法 (matrix multiplication) 
操作 符 。 对 于 科学 编程 者 来 说 ， 这 是 使 用 Python 3 的 最 令 人 信服 的 理由 之 一 : 它 使 得 
我 们 可 以 用 与 初始 数学 公式 非常 相似 的 代码 实现 线性 代数 算法 。 比 较 以 下 两 种 代码 ， 
先是 第 一 种 。 

hygx = px @ xLog1x(Px_inv @ Pxy).sum(axis=1) 
然后 是 第 二 种 ， 即 Python 2 中 的 等 价 代 码 。 

hygx = px.dot(xLog1x(Px_inv.dot(Pxy)).sum(axis=1)) 
使 用 @ 操 作 符 的 代码 与 数学 表示 非常 相似 ， 从 而 可 以 避免 程序 错误 ， 写 出 更 易 读 的 代码 。 


实际 上 ，SciPy 开发 者 早 在 引入 @ 操 作 符 之 前 就 意识 到 了 这 一 点 ,而 且 已 经 在 输入 为 
SciPy 给 阵 时 修改 了 * 操作 符 的 含义 。Python 2.7 中 就 可 以 写 出 像 上 面 那样 既 优 雅 又 易 
于 阅读 的 代码 。 
hygx = -px * xlog(Px_inv * Pxy).sum(axis=1) 

但 是 这 样 做 有 一 个 巨大 的 隐患 px 或 Px_inv 可 能 是 SciPy 引 阵 ， 也 可 能 不 是 SciPy 矩 
阵 ， 不 同 的 情况 下 这 行 代码 的 作用 完全 不 同 | 如 果 Px_inv 和 Pxy 是 NumPy 数组 ， 那 么 
* 表示 元 素 级 别 的 乘法 ; 但 如 果 Px_inv 和 Pxy 是 SciPy 矩阵 ， 那 么 * 表示 纸 阵 乘积 ! 可 
以 想象 ， 这 将 会 导致 很 多 错误 ， 因 此 很 多 SciPy 社区 禁止 这 种 做 法 ， 宁 可 使 用 丑陋 但 没 
有 歧义 的 .dot 方法 。 


Python 3.5 引入 @ 操 作 符 是 一 种 两 全 其 美的 做 法 | 


5.1 列 联 表 


我 们 先 从 简单 工作 开始 ， 然 后 逐渐 转 到 图 像 分 割 。 
假设 你 刚 在 电子 邮件 创业 公司 Spam-o-matic 开始 自己 的 职业 生涯 。 你 的 任务 是 建立 一 个 垃 
圾 邮件 检测 器 ， 用 数值 表示 探测 器 的 结果 : 0 表示 非 垃 圾 邮件 ，1 表示 垃圾 邮件 。 

如 果 你 对 一 个 包含 10 封 邮件 的 集合 进行 分 类 ， 可 以 得 到 一 个 预测 向 量 。 


import numpy as np 
pred = np.array([0, 1, 0, 0, 1, 1, 1, 0, 1, 1]) 
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你 可 以 与 包含 真实 结果 的 向 量 比较 一 下 ， 真 实 结果 是 通过 手工 检查 每 封 邮件 得 到 的 一 个 正 
确 分 类 。 


gt = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1]) 


眼下 ,分 类 对 计算 机 来 说 还 是 比较 困难 的 ， 因 此 pred 和 gt 中 的 值 不 能 完全 匹配 。 在 pred 
和 gt 都 是 0 的 位 置 ， 如 果 预 测 器 正确 地 识别 出 一 封 邮件 不 是 垃圾 邮件 ， 那 么 这 种 情况 称 
为 真 阴性 (true negative)。 反 之 ， 如 果 预 测 器 在 都 是 1 的 位 置 正确 地 识别 出 一 封 垃圾 邮件 ， 
那 就 是 真 阳 性 (true positive)。 


错误 类 型 主要 有 两 种 。 如 果 将 一 封 垃 圾 邮件 (gt 值 为 1) 放 到 了 用 户 的 收 件 箱 (pred 值 
为 0) ， 那 么 我 们 就 犯 了 假 阴 性 (false negative) 错误 。 如 果 将 一 封 合法 的 邮件 (gt 值 为 0) 
预测 为 垃圾 邮件 (pred 值 为 1) ， 那 么 我 们 就 犯 了 假 阳 性 (false positive) 错误 。( 有 一 次 ， 
我 们 科学 研究 所 主任 的 一 封 邮 件 就 跑 到 了 我 的 垃圾 邮件 文件 夹 。 为 什么 呢 ? 他 发 的 博士 后 
演讲 比赛 通知 开头 是 “你 可 以 赢得 500 美元 ”! ) 

如 果 想 要 测量 工作 效果 ， 就 必须 用 列 联 矩 阵 考 虑 以 上 所 说 的 几 种 错误 。( 列 联 矩 阵 又 称 为 
混淆 和 矩阵， 这 个 名 称 非 常 贴切 。) 为 了 得 到 列 联 和 矩阵 ， 我 们 将 预测 标签 放 在 行 上 ， 真 实 结 
果 标 签 放 在 列 上 ， 然 后 计算 出 它们 能 够 互相 对 应 的 次 数 。 例 如 ， 因 为 有 4 个 真 阳性 结果 
(pred 和 gt 均 为 1)， 所 以 矩阵 在 (1，1) 处 的 值 是 4。 


通常 来 说 : 
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以 下 代码 是 这 个 公式 的 一 种 直观 但 低 效 的 实现 。 
def confusion matrix(pred, gt): 
cont = np.zeros((2, 2)) 
for i in [0, 1]: 
for j in [0, 1]: 
cont[i, j] = np.sum((pred == i) & (gt == j)) 
return cont 


我 们 可 以 检查 它 能 否 给 出 正确 的 计数 结果 。 


confusion matrix(pred, gt) 
array([[ 3., 1.], 
[ 2., 4.]]) 
5.1.1 练习 : 混淆 矩阵 的 计算 复杂 度 
为 什么 说 上 述 那 段 代码 低 效 ? 
参见 附录 A.6 市 。 
5.1.2 练习 : 计算 混淆 矩阵 的 另 一 种 方法 


计算 混淆 矩阵 的 另 一 种 方法 只 需要 遍历 一 次 pred 和 gt。 
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def confusion matrixi(pred, gt): 
cont = np.zeros((2, 2)) 
# 你 的 代码 在 这 里 


return cont 
参见 附录 A.7 节 。 


我 们 可 以 使 这 个 示例 更 通用 一 点 。 垃 圾 邮件 和 非 垃圾 邮件 的 分 类 太 简 单 ， 可 以 进一步 将 邮 
件 分 为 垃圾 邮件 、 新 闻 、 广 告 促销 、 邮 件 列表 和 个 人 邮件 。 这 样 就 共有 5 个 类 别 ， 标 号 为 
0~4， 混 清和 矩阵 为 5 x 5， 对 角 线 上 的 值 表示 匹配 计数 ， 非 对 角 线 上 的 值 表示 错误 计数 。 


confusion_matrix 函数 的 定义 不 能 很 好 地 扩展 为 这 种 更 大 的 矩阵 ， 因 为 必须 遍历 预测 结果 
数组 和 实际 结果 数组 25 次 。 如 果 加 入 更 多 的 电子 邮件 分 类 (如 社交 媒体 通知 )， 那 么 问题 
就 更 大 了 。 


5.1.3 练习: 多 类 混淆 矩阵 
像 前 面 一 样 ， 编 写 一 个 函数 在 一 次 凯 历 中 计算 混淆 和 矩阵， 但 不 是 假设 有 2 个 分 类 ， 而 是 通 
过 输入 确定 分 类 个 数 。 
def general_confusion matrix(pred, gt): 

n_classes = None # 用 某 个 有 意义 的 对 象 禁 换 'None' 

# 你 的 代码 在 这 里 

return cont 
你 的 一 次 遍历 解决 方案 应 该 根据 类 的 数目 很 好 地 扩展 ， 但 是 ， 由 于 for 循环 是 在 Python 解 
释 嚣 中 运行 的 ， 当 邮件 数量 过 多 时 ， 程 序 的 速度 会 非常 慢 。 此 外 ， 因 为 有 些 类 彼此 之 间 非 
常 容易 混淆 ， 所 以 矩阵 将 是 非常 稀疏 的 ， 其 中 很 多 元 素 为 0。 实际 上 ， 当 分 类 数量 增加 时 ， 
由 于 列 联 和 矩阵 的 0 值 元 素 占 用 了 大 量 内 存 空 间 ， 内 存 的 浪费 就 更 加 严重 了 。 因 此 ， 可 以 使 
用 SciPy 的 sparse 模块 ， 它 包含 了 能 够 有 效 处 理 稀 玻 和 矩阵 的 对 象 。 


5.2 scipy.sparse 数 据 格 式 


第 1 章 中 介绍 了 NumPy 数组 的 内 部 数据 格式 。 我 们 希望 你 认同 ， 它 是 保存 V 维 数组 数 
据 的 非常 直观 的 格式 ， 并 且 从 某 种 程度 上 是 必需 的 。 对 于 稀疏 矩阵 来 说 ， 确 实 可 以 有 多 
种 数据 格式 ， 而 且 “ 正 确 的 ”格式 要 依 具体 问题 而 定 。 我 们 将 介绍 两 种 最 常用 的 格式 ， 
如 果 想 知道 完整 的 格式 列表 ， 参 见 本 章 后 面 用 于 比较 的 一 个 表格 ， 或 者 scipy.sparse 的 
在 线 文档 。 


5.2.1 COO 格 式 

最 简单 直观 的 可 能 就 是 坐标 系 格式 ， 或 称 COO 格式 。 它 用 3 个 一 维 数组 来 表示 一 个 二 维 
和 矩阵 4。 每 个 数组 的 长 度 都 等 于 4 中 非 零 元 素 的 数量 ， 它 们 共同 组 成 了 一 个 包括 所 有 非 零 
元 素 坐 标 (i,j, 值 ) 的 列表 。 

。 row 数组 和 col 数组 分 别 表示 行 索 引 和 列 索 引 ， 它 们 共同 确定 了 每 个 非 零 元 素 的 位 置 。 
。 data 数组 确定 了 每 个 位 置 的 值 。 
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数组 中 没有 被 数 对 (row, coU) 表示 的 所 有 元 素 都 默认 为 0。 这样 效率 就 高 多 了 ! 因此 ， 需 要 
表示 这 个 矩阵 。 


s = np.array([[ 4, 0, 3], 
[ 9, 32, 0]], dtype=float) 


可 以 使 用 以 下 代码 。 


from scipy import sparse 








data = np.array([4, 3, 32], dtype=float) 
row = np.array([0, 0, 1]) 
col = np.array([0, 2, 1]) 


s_co0 = sparse.coo matrix((data, (row, col))) 


scipy.sparse 中 的 .toarray() 方法 可 以 将 稀疏 矩阵 格式 还 原 为 稀 疏 数据 的 NumPy 数组 表 
示 形 式 。 可 以 用 这 个 方法 检查 是 否 正 确 创建 了 s_coo。 


s_coo.toarray() 


array([[ 4., 0., 3.], 

[ 0., 32., 0.]]) 

同样 也 可 以 使 用 .A 属性 ， 它 就 像 一 个 特征 ， 但 实际 上 是 运行 一 个 函数 。.A 是 一 个 特别 危 

险 的 属性 ， 因 为 其 中 隐藏 了 开销 巨大 的 操作 : 稀 距 和 矩阵 NumPy 数组 版 本 耗费 的 资源 要 比 
稀 玻 矩阵 本 身 大 好 几 个 数量 级 ， 只 需 3 次 按键 ， 就 可 能 让 计算 机 瘫痪 ! 


S_Coo.A 




















array([[ 4., 0., 3.], 
[ 0., 32., 0.]]) 


只 要 不 影响 可 读 性 ， 本 章 或 其 他 地 方 都 推荐 使 用 toarray() 方法 ， 因 为 它 能 更 清楚 地 标识 
出 潜在 的 代价 昂贵 的 操作 。 但 如 果 .A 的 简洁 性 可 以 使 代码 更 易 读 (例如 ， 尝 试 实现 数学 
等 式 的 序列 时 )， 也 可 以 使 用 .A。 

5.2.2 练习 : COO 表 示 

写 出 以 下 算 阵 的 COO 表示 : 


s2 = np.array([[0， 
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遗憾 的 是 ， 尽 管 简 单 直观 , 但 COO 格式 的 优化 程度 还 不 够 ， 它 没有 使 用 最 少 的 内 存 或 在 
计算 时 尽快 遍历 数组 。( 回 忆 一 下 第 1 章 ， 数 据 局 部 性 对 于 提高 计算 效率 非常 重要 ! ) 然 
而 ， 你 可 以 仔细 查看 一 下 上 面 的 COO 表示 ， 以 找 出 宛 余 信息 。 你 能 在 1 秒 内 找 出 重复 元 
素 吗 ? 
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5.2.3 ” 稀 中 行 压缩 格式 


如 果 用 COO 一 行 行 地 枚 举 非 零 元 素 ， 而 不 是 按 任意 顺序 枚 举 〈COO 格式 允许 这 样 
做 )， 那 么 就 可 以 在 row 数组 中 得 到 很 多 连续 的 、 重 复 的 值 。 可 以 通过 引用 col 中 下 一 行 
开始 的 索引 来 压缩 这 些 值 ， 这 样 可 以 避免 重复 使 用 行 索引 。 这 就 是 稀 朴 行 压缩 (CSR， 
compressed sparse row) 格式 的 基本 思想 。 
我 们 用 以 上 示例 来 说 明 。 在 CSR 格式 中 ，col 和 data 数组 不 变 (但 col 被 重新 命名 为 
indices)。 但 row 数组 不 再 表示 行 索 引 ， 而 是 表示 每 一 行 在 col 数组 中 从 哪里 开始 ， 而 且 
被 重新 命名 为 indptr， 含义 是 “索引 指针 ”。 
先 看 一 下 COO 格式 中 的 row 和 coL， 和 暂且 忽略 data。 

row = [0, 1, 1, 1, 1, 2, 3, 4, 4] 

col = [2, 0, 1, 3, 4, 1, 0, 3, 4] 
每 当 row 中 索引 值 发 生变 化 时 ， 就 会 开始 一 个 新 行 。 第 0 行 在 索引 0 处 开始 ， 第 1 行 在 索 
引 1 处 开始 ， 但 第 2 行 在 row 中 第 一 次 出 现 “2” 的 地 方 ， 也 就 是 索引 5 处 开始 。 对 于 第 3 
行 和 第 4 行 ， 索引 位 置 每 次 增加 1， 就 是 第 6 和 第 7 个 索引 。 还 要 加 上 最 后 一 个 表示 和 抑 阵 
结束 的 索引 ， 它 是 矩阵 中 非 零 值 的 总 数 (9)。 因 此 : 


indptr = [0, 1, 5, 6, 7, 9] 
接 下 来 用 这 些 简 单 的 数组 来 建立 SciPy 中 的 CSR 和 矩阵。 前 面 定义 了 一 个 NumPy 数组 s2， 
通过 比较 其 COO 表示 和 CSR 表示 的 .A 输出， 可 以 检验 我 们 的 工作 是 否 正确 。 

data = np.array([6, 1, 2, 4, 5, 1, 9, 6, 7]) 







































































co0 = sparse.coo matrix((data, (row, col))) 
csr = sparse.csr_matrix((data, col, indptr)) 


print('The COO and CSR arrays are equal: ， 
np.all(coo.A == csr.A)) 

print('The CSR and Numpy arrays are equal: ' 
np.all(s2 == csr.A)) 


The C00 and CSR arrays are equal: True 
The CSR and NumPy arrays are equaL: True 


这 种 保存 大 型 稀 蔗 矩阵 并 在 其 上 进行 计算 的 能 力 强大 到 不 可 思议 ， 可 以 应 用 于 多 个 领域 。 
例如 ， 可 以 认为 整个 互联 网 是 一 个 大 型 的 、 稀 玻 的 Wx 和 矩阵 。 其 中 的 每 一 项 妃 表 示 网 
页 i 是 否 链接 到 网 页 yj。 对 这 个 矩阵 进行 标准 化 并 求 出 主 特征 向 量 ， 就 可 以 得 到 所 谓 的 
PageRank 一 一 Google 用 来 对 搜索 结果 进行 排序 的 一 种 数值 。( 下 一 章 将 对 此 做 更 多 介绍 。) 
再 看 一 个 示例 ， 可 以 将 人 脑 表 示 成 一 个 m xm 的 大 型 图 结构 ， 其 中 有 m 个 可 以 用 MRI 扫 
描 仪 检测 其 活动 的 节点 〈 位 置 )。 检 测 一 段 时 间 后 ， 可 以 计算 出 它们 之 间 的 相关 性 并 保存 
到 一 个 矩阵 C; 中 。 对 这 个 和 矩阵 进行 装 值 化 ， 可 以 得 到 一 个 包含 1 和 0 的 稀 足 和 矩阵。 与 这 
个 矩阵 的 第 二 小 的 特征 值 对 应 的 特征 向 量 可 以 将 m 个 大 脑 区 域 分 成 几 个 子 组 ， 事 实证 明 ， 
它们 经 常 与 大 脑 的 功能 区 域 相关 ! 
























































注 1: NEWMAN MEJ.Modularity and community structure in networks [J]. PNAS, 2006, 103(23): 8577-8582. 
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志 红 1 志 邓 MOq 制 维 VId 志 双 HSO 志 戏 9SO 志 戏 OO9 志 双 HS9 





107 





公 


稀 玻 坐标 矩阵 实现 列 联 




















5.3” 稀 足 矩阵 应 用 : 


图 像 转换 


一 些 库 已 经 包含 了 有 效 的 图 像 转换 (旋转 与 变形 ) 算法 ， 如 scikit-image 和 SciPy。 但 是 ， 


假设 你 是 NumPy 航天 事务 局 的 头 儿 ， 


必须 对 一 个 新 发 射 的 木星 轨道 飞行 器 传 回来 的 成 千 


上 万 张 图 像 进行 旋转 ， 那 么 该 怎么 办 呢 ? 


在 这 种 情况 下 ， 你 必须 让 计算 机 使 出 吃 奶 的 力气 。 事 实证 明 ， 如 果 重 复 应 用 同一 种 转换 ， 
那么 效果 要 远 远 好 于 SciPy 的 ndimage 模块 中 那些 经 过 优化 的 C 代码 。 














以 下 是 一 张 来 自 scikit-image 的 测试 图 
作为 示例 数据 。 








~ 





请， 其 中 是 一 个 正在 照相 的 男人 ， 我 们 用 这 张 图 片 


# 使 图 形 显示 在 文本 中 ， 定 制 绘图 风格 























%matplotlib inline 
import matplotlib.pyplot as plt 


plt.style.use('style/elegant.mplstyle') 


from skimage import data 
image = data.camera() 
plt.imshow(image); 
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作为 一 项 测试 ， 将 这 张 图 片 旋 转 30 度 。 先 定义 转换 矩阵 万 ， 用 它 乘 以 输入 图 像 的 坐标 [7， 
c, 1] 可 以 得 到 相应 的 输出 坐标 [rc', 1]。( 注 意 : 我 们 使 用 的 是 齐 次 坐标 ， 它 的 后 面 有 一 个 
1， 这 样 在 定义 线性 转换 时 就 更 具 灵活 性 。) 














angle = 30 
c = Np.cos(np.deg2rad(angle)) 
s = Np.sin(np.deg2rad(angle)) 


H = np.array([[c, -s, 0]， 





























可 以 用 五 乘 以 点 (1,0) 来 检验 效果 。 绕 着 原点 (0, 0) 逆 时 针 旋转 30 度 可 以 得 到 点 (V3 /2, 1/2)。 


point = np.array([1, 09, 1]) 
print(np.sqrt(3) / 2) 
print(H @ point) 


0.866025403784 
[ 0.8660254 0.5 1. ] 


同 理 ，3 次 30 度 旋转 可 以 将 点 转 到 纵 轴 上 ， 得 到 点 (0, 1 )。 可 以 看 到 ， 除 了 一 些 浮 点 数 近 





似 误差 ， 确 实 是 这 样 的 。 
print(H@H@ H @ point) 


[ 2.77555756e-16 1.00000000e+00 1.00000000e+00] 





接 下 来 要 建立 一 个 函数 来 定义 “ 稀 玻 操作 符 “。 稀 足 操作 符 的 目的 是 得 出 输出 图 像 中 的 所 
有 像素 ， 先 确定 它们 在 输入 图 像 中 的 位 置 ， 再 用 合适 的 〈 双 线性 ) 插值 方法 ( 见 图 5-1) 






































计算 出 它们 的 值 。 它 用 矩阵 乘法 来 完成 这 个 任务 ， 因 此 速度 特别 快 。 





























图 5-1: 双 线 性 插值 示意 图 一 一 P 点 的 值 是 根据 Qi、Qi>、Q2;、Qa 的 加 权 和 估计 出 来 的 





下 面 来 看 一 下 建立 稀疏 操作 符 的 函数 。 


from itertools import product 


7 











def homography(tf, image_shape): 
"""Represent homographic transformation & interpolation as linear operator. 


Parameters 


tf : (3, 3) ndarray 
Transformation matrix. 
image_shape : (M, N) 
Shape of input gray image. 


Returns 


A: (M*N, M* N) sparse matrix 
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Linear-operator representing transformation + bilinear interpolation. 


# 逆 矩 阵 ， 能 告诉 我 们 与 每 个 输出 像素 所 对 应 的 输入 像素 的 位 置 。 
H = np.linalg.inv(tf) 





m，n = image_shape 











# 我 们 要 构建 一 个 C00 和 矩阵 ， 常 称 为 IJK 和 矩阵 ， 需 要 行 坐标 7) 、 列 坐标 (7) 和 值 (K) 。 


row, col, values = [], [], [] 





# 对 输出 图 像 中 的 每 个 像素 …… 
for sparse_op_row, (out_row, out col) in \ 
enumerate(product(range(m), range(n))): 











# 计算 出 它们 在 输入 图 像 中 的 位 置 

in_row, in_col, in abs = H @ [out_row, out col, 1] 
in_row /= in_abs 

in_col /= in_abs 


























# 如 果 坐 标 跑 到 了 初始 图 像 外 ， 则 忽略 该 坐标 ， 这 个 位 置 的 值 就 是 9 
if (not 0 <= in row <m-1 or 
not 0 <= in_coL <n - 1): 
Continue 











# 我 们 要 找 出 输出 像素 周围 的 4 个 像素 ， 通 过 对 它们 的 值 进行 插值 ， 

# 得 出 对 输出 像素 的 精确 估计 。 从 左上 角 开 始 ， 注 意 其 余 的 点 在 每 个 方向 上 都 在 1 个 
# 单位 的 距离 外 

top = int(np.floor(in_row)) 

Left = int(np.floor(in_col)) 




















# 计算 输出 像素 的 位 置 ， 映 射 到 输入 图 像 ， 在 4 个 所 选 像 素 之 间 
t = in_row - top 
U = in col - left 














# 稀 玻 操作 符 矩 阵 的 当前 行 由 输出 像素 坐标 的 笛 卡 儿 积 顺序 确定 ， 
# 保存 在 sparse_op_row 中 。 要 算出 对 应 4 个 列 的 周围 4 个 输入 像素 的 加 权 平均 ， 
因此 需要 将 行 索引 重复 4 次 


row.extend([sparse_op_row] * 4) 



































站 


# 实际 的 权重 是 根据 双 线性 插值 算法 计算 出 来 的 
sparse_op_col = np.raveL_muLti_ index( 
([top， top， top + 1, top + 1 ]， 
[left, left + 1, left, Left + 1]), dims=(m, n)) 
col.extend(sparse_op_col) 
values.extend([(1-t) * (1-u), (1-t) * u, t* (1-u), t * u]) 





operator = sparse.coo matrix((values, (row, col)), 
shape=(m*n, m*n)).tocsr() 
return operator 


像 下 面 这 样 使 用 稀 玻 操作 符 。 


def apply_transform(image, tf): 
return (tf @ image.flat).reshape(image.shape) 
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试 一 下 ! 


tf = homography(H, image.shape) 
out = apply_transform(image, tf) 
plt.imshow(out); 
































这 就 是 旋转 的 效果 ! 


练习 : 图 像 旋转 


























旋转 是 围绕 着 坐标 原点 (0, 0) 进行 的 ， 你 能 绕 着 图 像 中 心 进行 旋转 吗 ? 
提示 : 图 像 翻译 〈 即 上 下 或 左右 移动 图 像 ) 的 转换 矩阵 如 下 所 示 。 
1 0 
H,=I0 1 
0 0 1 





以 上 公式 可 以 将 图 像 向 下 移动 二 个 像素 ， 向 右 移 动 上 个 像素 。 

如 前 所 述 ， 这 种 用 于 图 像 变 换 的 线性 稀 玻 操作 符 方法 速度 非常 快 。 接 下 来 测量 一 下 ， 与 
ndimage 相 比 ， 其 速度 到 底 有 多 快 。 为 了 公平 起 见 ， 我 们 要 告诉 ndimage 使 用 order = 1 的 
线性 插值 ， 并 通过 reshape = False 忽略 那些 跑 到 初始 形状 外 的 像素 。 























%timeit apply_transform(image, tf) 
100 loops, average of 7: 3.35 ms +- 270 hs per Loop (using standard deviation) 


from scipy import ndimage as ndi 
%timeit ndi.rotate(image, 30, reshape=False, order=1) 


100 loops, average of 7: 19.7 ms +- 988 hs per Loop (using standard deviation) 
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可 以 看 出 ， 它 在 计算 机 上 的 速度 大 约 快 了 10 倍 。 尽 管 这 只 是 一 个 旋转 的 例子 ， 但 完全 可 
以 进行 更 复杂 的 变形 操作 ， 比 如 修正 成 像 过 程 中 的 扭曲 镜头 ， 或 者 给 人 脸 加 上 一 个 滑稽 的 
表情 。 一 旦 完成 转换 计算 ， 重 复 应 用 这 种 转换 的 速度 就 会 非常 快 ， 这 都 要 归功 于 稀 芷 矩阵 
代数 。 

介绍 完 SciPy 稀 玻 矩阵 的 “标准 ”应 用 后 ， 接 下 来 将 介绍 促使 我 们 摆 写 本 章 的 非 传统 应 用 。 


5.4 回 到 列 联 表 


你 可 能 还 记得 ， 我 们 试图 用 SciPy 稀 下 矩 阵 格式 快速 建立 一 个 稀 玻 的 联合 概率 和 矩阵。 我 们 
知道 COO 格式 可 以 将 稀 政 数据 保存 为 3 个 数组 ， 其 中 分 别 包含 非 零 元 素 的 行 坐标 、 列 坐 
标 及 其 值 。 我 们 可 以 用 COO 的 一 些 已 知 特性 快速 得 到 需要 的 矩阵 。 


查看 以 下 数据 。 


row = [0, 0, 2] 
col = [1, 1, 2] 
dat = [5, 7, 1] 
S = sparse.coo matrix((dat, (row, col))) 


注意 ，( 行 , 列 ) 位置 为 (0, 1) 的 元 素 出 现 了 两 次 : 第 一 次 是 5， 然 后 是 7。 那 么 矩阵 在 (0, 1) 
处 的 值 到 底 是 什么 呢 ” 可 能 是 前 一 个 值 ， 也 可 能 是 后 一 个 值 ， 但 实际 上 是 两 个 值 的 和 。 


print(S.toarray()) 



































因此 ，COO 格式 会 累加 重复 的 元 素 。 这 正 是 构建 列 联 和 矩阵 所 需要 的 ! 实际 上 ， 我 们 的 任务 
已 经 基本 完成 了 : 可 以 将 行 设 为 pred、 列 设 为 gt、 值 设 为 1。 在 矩阵 中 的 信访 位 置 ，pred 
中 标记 为 i 和 gt 中 标记 为 7 的 1 会 累加 起 来 ， 并 计算 出 累加 的 次 数 ! 下 面 来 试 一 下 。 


from scipy import sparse 








def confusion matrix(pred, gt): 
cont = sparse.coo matrix((np.ones(pred.size), (pred, gt))) 
return cont 


我 们 用 .toarray 方法 看 一 个 小 示例 。 


cont = confusion matrix(pred, gt) 
print(cont) 





PPpAPAPAPPAPPAPAPp 
O00O0o0O0o0oooo 





print(cont.toarray()) 


[[ 3. 1.] 
[ 2. 4.]] 


果真 有 效 ! 
练习 : 减少 内 存 占用 


第 1 章 中 介绍 过 ，NumPy 的 内 置 工具 可 以 用 广播 机 制 重复 数组 。 如 何 才能 减少 列 联 和 矩阵 计 
算 所 需 的 内 存 占用 ? 
提示 : 查阅 np.broadcast_to 函数 的 文档 。 


5.5 图 像 分 割 中 的 列 联 表 


可 以 用 与 以 上 分 类 问题 相同 的 思路 来 处 理 图 像 分 割 : 每 个 像素 的 分 区 标签 都 是 对 该 像素 所 
属 类 的 一 个 预测 。NumPy 数组 可 以 让 我 们 轻松 地 完成 这 个 任务 ， 因 为 它们 的 .ravel() 方 
法 可 以 返回 基础 数据 的 一 维 视图 。 
举 个 例子 ， 以 下 是 对 3x3 的 小 图 片 的 一 种 分 割 。 


seg = np.array([[1，1，2]， 
[1， 2 2]， 
[3, 3, 3]], dtype=int) 


以 下 是 真实 结果 ， 也 就 是 这 个 图 像 的 正确 分 割 方式 。 
gt = np.array([[1，1，1]， 
[1， 1， 1] ， 
[2, 2, 2]], dtype=int) 
我 们 可 以 认为 这 两 个 结果 就 是 分 类 问题 ， 就 像 前 面 的 分 类 问题 一 样 。 每 个 像素 都 是 一 个 不 
同 的 预测 。 
print(seg.ravel()) 
print(gt.ravel()) 





















































[112122333] 
[111111222] 
和 前 面 的 例子 类 似 ， 用 以 下 代码 得 出 列 联 和 矩阵 。 


cont = sparse.coo matrix((np.ones(seg.size), 
(seg.ravel(), gt.ravel()))) 
print(cont) 
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©OOoOooOoooo 


有 些 索 引出 现 了 不 止 一 次 ， 但 我 们 可 以 用 COO 格式 的 可 加 性 来 确认 这 就 是 我 们 需要 的 
矩阵。 


print(cont.toarray()) 


[ 


©O©O©o0o 
OWLWO 


[ 
[ 
[ 
[ 





如 何 转 换 这 个 表格 才能 测量 出 seg 对 gt 的 表示 效果 呢 ?” 图 像 分 割 是 一 个 很 困难 的 问题 ， 因 
此 ,通过 比较 其 输出 和 手工 得 出 的 “真实 结果 ”， 可 以 测量 出 图 像 分 割 算法 的 效果 ， 这 是 
非常 重要 的 。 


但 这 种 比较 也 不 是 一 个 容易 的 任务 。 那 么 如 何 定义 自动 分 割 结果 与 真实 结果 的 “接近 ” 程 
度 呢 ?下 面 介绍 一 种 名 为 信息 变异 (VI，variation of information)“ 的 方法 。 它 被 定义 为 以 
下 间 题 的 答案 : 从 平均 意义 上 来 说 ， 对 于 一 个 随机 的 像素 ， 如 果 给 定 了 它 在 一 个 分 区 内 的 
分 区 ID， 那 么 还 需要 多 少 信息 才能 确定 它 在 另 一 个 分 区 内 的 了 D 呢 ? 


直观 地 说 ， 如 果 两 个 分 区 完全 相同 ， 那 么 知道 一 个 分 区 中 的 卫 就 可 以 知道 另 一 个 分 区 中 
的 一， 无 须 其 他 信息 。 但 如 果 两 个 分 区 差异 较 大 ， 在 没有 更 多 信息 的 情况 下 ， 知 道 一 个 分 
区 中 的 ID 无 法 确定 另 一 个 分 区 中 的 人 D。 


5.6 ”信息论 简介 


为 了 回答 之 前 给 出 的 问题 ， 需 要 快速 了 解 一 下 信息 论 的 基础 知识 。 此 处 需要 节省 篇 幅 ， 但 
如 果 你 想 了 解 更 多 内 容 ， 可 以 查看 Christopher Olah 的 博文 “Visual Informatican Theory”。 
信息 的 基本 单位 是 位 (bit)， 通常 表示 为 0 或 1， 这 表示 两 个 选项 被 选中 的 概率 相等 。 这 很 
容易 理解 : 如 果 想 要 告诉 你 撕 硬 币 的 结果 是 正面 还 是 反面 ， 那 么 就 需要 一 个 位 ， 它 有 多 种 
形式 : 治 着 电报 线路 传 来 的 或 长 或 短 的 脉冲 〈 摩 尔 斯 电码 )、 两 种 颜色 的 灯光 闪烁 ， 或 一 
个 只 能 取 0 或 1 的 数值 。 重 要 的 是 ， 我 们 一 定 需要 一 个 位 ， 因 为 掷 硬 币 的 结果 是 随机 的 。 


事实 上 ， 我 们 可 以 将 这 个 概念 扩展 为 分 数位 ， 以 表示 那些 随机 性 较 弱 的 事件 。 比 如 ， 假 设 
你 需要 发 射 一 个 表示 拉 斯 维 加 斯 今天 是 否 下 雨 的 信号 。 乍 一 看 ， 这 也 需要 一 个 位 : 0 表示 
没有 下 雨 ，1 表示 下 雨 。 但 是 ， 拉 斯 维 加 斯 下 雨 是 非常 罕见 的 事件 。 因 此 ， 随 着 时 间 的 推 
移 ， 我 们 可 以 偷 个 懒 ， 仅 仅 发 射 比 原来 少 得 多 的 信息 : 偶尔 发 射 0 以 确定 我 们 的 通信 没有 
中 断 ， 其 他 时 间 都 简单 地 假设 信号 为 0， 只 在 下 雨 这 一 罕见 事件 发 生 时 才 发 射 1。 





















































































































































注 2: MEILA M. Comparing clusterings 一 an information based distance [J]. Journal of Multivariate Analysis, May 
2007, 98(5): 873-895. 
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因此 ， 当 两 个 事件 发 生 的 概率 不 等 时 ， 我 们 需要 少 于 一 个 位 来 表示 它们 。 一 般 来 说 ， 对 于 
任意 随机 变量 (可 能 值 可 以 多 于 两 个 )， 我 们 用 以 下 函数 五 表示 它 的 炳 。 


HOEY = Tp. ob; 半 


Xx 


=-> ,plog,(p.) 





























其 中 x 是 X 的 可 能 值 ，p, 是 针 取 x 值 的 概率 。 


因此 ， 如 果 用 了 表 示 掷 一 次 硬币 这 个 事件 ， 那 么 它 可 能 有 两 个 值 ， 即 正面 (h) 和 反面 (1)， 
则 其 炉 如 下 所 示 : 















































H(T)= p, log,(l/ p;)+ plog,(l/ p,) 
=1/210g,(2) +1/210g,(2) 
=1/2.1+1/2.1 
=1 
从 长 期 来 看 ， 拉 斯 维 加 斯 的 某 一 天 下 两 的 概率 大 概 是 116。 用 尺 表 示 拉 斯 维 加 斯 下 雨 这 一 
事件 ， 可 能 的 取 值 是 下 雨 (rx) 和 晴天 (s)， 则 其 业 如 下 所 示 : 
H(R)=p, log,(l/ p,)+ p, log,(l/ p,) 
=1/ 6log,(6)+5/ 6log,(6/5) 
~ 0.65 bits 

















条 件 炉 是 一 种 特殊 的 炉 ， 它 是 假设 你 知道 变量 的 一 些 其 他 相关 信息 时 变量 的 炊 。 例 如 ， 在 
已 知 月 份 的 情况 下 ， 下 雨 这 一 事件 的 炉 是 多 少 ? 此 时 可 以 表示 如 下 : 


H(RIM)=>, p(nH(RIM =m) 


并 且 : 





1 1 
H(RIM =m)= Prim log,| — |+ Psim log, 
Pp 已 sm 


rim 
ps ee| p, ] 了 ee| p, | 
Bd) De Cp 
i oe, po Jog, 加 
人 
现在 你 已 经 具备 了 理解 信息 变异 所 需 的 全 部 信息 论 基础 。 在 以 上 示例 中 ， 事 件 是 日 期 ， 而 
且 它 们 有 两 个 属性 。 


。 rain/shine (下 雨 / 上 晴天) 
。 month (月 份 ) 
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就 像 在 分 类 示例 中 那样 ， 通 过 观测 大 量 日 期 ， 我 们 可 以 建立 一 个 列 联 和 矩阵， 表示 某 个 日 期 
的 月 份 以 及 这 一 天 是 否 下 雨 。 我 们 不 用 跑 去 拉 斯 维 加 斯 完成 这 个 任务 (尽管 这 非常 有 趣 )， 
只 需 使 用 来 自 WeatherSpark 网 站 的 以 下 历史 表格 。 











月 份 P( 下 雨 ) P( 晴 天 ) 
1 0.25 0.75 
之 0.27 0.73 
3 0.24 0.76 
4 0.18 0.82 
5 0.14 0.86 
6 0.11 0.89 
了 0.07 0.93 
8 0.08 0.92 
9 0.10 0.90 
10 0.15 0.85 
11 0.18 0.82 
12 0.23 0.77 


给 定 month 后 ，raiin 的 条 件 炉 如 下 所 示 : 
H(RIM)= -五 (025log:(0.23) +0.75log,(0.75))— 二 (02710g,(027) +0.73log,(0.73)) 


本 -二 (023log:(023) +0.7710g,(0.77)) 
~ 0.626 bits 


因此 ， 我 们 通过 月 份 减少 了 信号 的 随机 性 ， 但 减少 得 并 不 多 ! 


给 定 rain 的 情况 下 ， 我 们 还 可 以 计算 出 month 的 条 件 炉 ， 它 表示 在 知道 下 雨天 的 情况 下 ， 
我 们 还 需要 多 少 信息 才能 确定 月 份 。 直 观 来 看 ， 这 样 比 一 无 所 知 的 情况 更 好 ， 因 为 冬季 更 
可 能 下 雨 。 


练习 : 计算 条 件 灶 


计算 在 知道 下 雨天 的 情况 下 月 份 的 条 件 炉 。 月 份 变量 的 炉 是 什么 (忽略 月 份 的 天 数 差 异 ) ? 
哪个 更 大 ? 











表 中 的 概率 是 给 定 月 份 时 下 雨 的 条 件 概率 。 





prains = np.array([25, 27, 24, 18, 14, 11, 7, 8, 10, 15, 18, 23]) / 100 
pshine = 1 - prains 

p_rain g_month = np.column_stack([prains, pshine]) 

# 用 无 条 件 列 联 表 的 表达 式 替 换 下 面 的 'None' 。 提 示 : 表 中 值 的 总 和 必须 为 1 
p_rain_month = None 


# 将 你 计算 HCMIR) 和 (CM) 的 代码 加 在 下 面 
以 下 两 个 值 加 在 一 起 就 定义 了 信息 变异 。 
VI(4,B)= H(A4|B)+H(B|A) 


回 到 图 像 分 割 语 境 ,“ 日 期 ”就 变 成 了 “像素 "， 下 两 ”和 “月 份 ”就 变 成 了 “自动 分 割 
标签 (8)” 和 “真实 结果 标签 (7)”。 给 定 真实 结果 的 情况 下 ， 如 果 知 道 一 个 像素 在 7 了 中 
的 标识 ， 那 么 自动 分 割 条 件 粒 用 于 测量 还 需要 多 少 信息 才能 确定 像素 在 8 中 的 标识 。 举 例 
来 党， 如果 每 个 了 中 的 分 区 g 能 再 分 为 两 个 大 小 相等 的 $ 中 的 分 区 w 和 a,， 那 么 HID = 1。 
这 是 因为 ， 知 道 一 个 像素 在 g 中 之 后 ， 你 还 需要 一 个 额外 的 位 来 确定 它 是 属于 w 还 是 w。 
但 是 ，H(71S) = 0， 因 为 一 个 像素 无 论 是 在 w 还 是 a, 中 ， 它 都 肯定 是 在 g 中 ， 所 以 除了 知 
道 分 区 在 5S 中， 无 须 更 多 信息 。 


因此 ， 在 这 种 情况 下 : 









































VI(S,T)=H(S|T)+ H(T|S)=1+0=1bit 


以 下 是 一 个 简单 的 示例 。 
S = np.array([[0, 1], 
[2, 3]], int) 


T = np.array([[90, 1], 
[09, 1]], int) 


这 是 对 一 个 4 像素 图 像 的 两 种 分 割 方 式 : S 和 T。S 将 每 个 像素 都 划 为 一 个 分 区 ，T 则 将 左 
边 两 个 像素 划 为 分 区 0， 右边 两 个 像素 划 为 分 区 1。 接 下 来 ， 和 处 理 垃圾 邮件 预测 标签 一 
样 ， 我 们 做 一 个 像素 标签 的 列 联 表 。 唯 一 的 区 别 是 ， 这 里 的 标签 数组 是 二 维 的 ， 不 是 一 维 
的 预测 数组 。 实 际 上 ， 这 并 不 重要 : 记 住 ，NumPy 数组 实际 上 是 带 有 形状 和 其 他 元 数据 的 
线性 数据 块 。 正 如 前 面 所 说 ， 我 们 可 以 用 数组 的 .ravel() 方法 忽略 形状 。 


S.ravel() 



























































array([0, 1, 2, 3]) 


现在 我 们 就 可 以 像 预 测 垃 圾 邮件 时 那样 做 出 列 联 表 了 。 


cont = sparse.coo matrix((np.broadcast to(1., S.size), 
(S.ravel(), T.ravel()))) 





cont = cont.toarray() 
cont 
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array([ 


六 


[i 0] 
[ 6.，1.]， 
Cer 6 
[ 0., 1.] 


3? 





为 了 做 出 概率 表 ， 而 不 是 计数 表 ， 再 除 以 一 下 像素 总 数 就 可 以 了 。 


cont /= np.sum(cont) 


最 后 ， 我 们 可 以 用 这 张 列 联 表 通过 轴 向 加 总 计算 出 标签 在 S 或 T 中 的 概率 。 

p_S = np.sum(cont, axis=1) 

p_T = np.sum(cont, axis=0) 
使 用 Python 代码 计算 炉 时 有 个 小 问题 ， 尽管 0 log(0) 定义 为 等 于 0， 但 在 Python 中 ， 它 是 
未 定义 的 ， 并 会 得 到 一 个 nan 值 (不 是 一 个 数值 )。 


print('The log of 0 is: ', np.1lo0g2(0)) 
print('0 times the log of 0 is: ', 0 * np.Log2(0)) 

















The log of 0 is: -inf 
0 times the log of 0 is: nan 


因此 ， 我 们 必须 用 NumPy 索引 功能 剔除 0 值 。 此 外 ， 取 决 于 输入 是 NumPy 数组 还 是 
SciPy 稀 玻 矩阵 ， 还 需要 进行 一 些 不 同 的 处 理 。 为 了 方便 处 理 ， 我 们 使 用 以 下 函数 。 


def xLog1x(arr_or_mat): 
"""Compute the element-wise entropy function of an array or matrix. 








Parameters 

arr_or_mat : numpy array or Scipy sparse matrix 

The input array of probabilities. Only sparse matrix formats with a 
‘data” attribute are supported. 


Returns 

out : array or sparse matrix, same type as input 
The resulting array. Zero entries in the input remain as zero, 
all other entries are multiplied by the log (base 2) of their 
inverse. 

out = arr_or_mat.copy() 

if isinstance(out, sparse.spmatrix): 
arr = out.data 

else: 
arr = out 

nz = np.nonzero(arr) 

arr[nz] *= -np.Log2(arr[nz]) 

return out 


确认 一 下 代码 是 否 有 效 。 


a = np.array([0.25, 0.25, 0, 0.25, 0.25]) 
XLog1x(a) 
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array([ 0.5, 0.5, 0. ，0.5，0.5]) 


mat = sparse.csr_matrix([[0.125, 0.125, 0.25, 0] ， 
[6.125，0.125， 0, 0.25]]) 
XLog1x(mat) .A 


array([[ 0.375， 0.375， 0.5 , 0. ]， 
[ 0.375, 0.375, 0. , 0.5 ]]) 


因此 ， 给 定 T 时 5 的 条 件 炉 如 下 所 示 。 


H_ST = np.sum(np.sum(xlogix(cont / p_T), axis=0) * p_T) 
H_ST 


1.0 


H_TS = np.sum(np.sum(xlogix(cont / p_S[:, np.newaxis]), axis=1) * p_S) 


5.8 ”转换 NumPy 数 组 代码 以 使 用 稀 跑 和 矩 阵 


前 面 的 示例 使 用 了 NumPy 数组 和 广播 机 制 ， ee 这 是 在 Python 中 进行 
数据 分 析 的 一 种 非常 强大 的 方法 。 然 而 ， 对 于 可 能 包含 几 千 个 分 区 的 复杂 图 像 分 割 来 说 ， 
这 种 方法 的 效率 很 快 会 下 降 。 作 为 一 种 替代 方案 ， Sy sparse 进行 全 部 计算 ， 并 
将 NumPy 中 的 一 些 奇妙 功能 改组 为 线性 代数 操作 。 这 个 建议 是 在 StackOverflow 网 站 上 
由 Warren Weckesser 提供 的 ， 参 见 “Substitute for Numpy Broadcasting Using sctpy.sparse 





























CSc_matrix”。 
线性 代数 修改 过 的 函数 可 以 有 效 地 为 海量 数据 (最 高 可 达到 几 十 亿 个 点 ) 计算 列 联 矩 阵 ， 
而 且 优雅 简洁 。 


import numpy as np 
from scipy import sparse 





def invert_nonzero(arr): 
arr_inv = arr.copy() 
nz = np.nonzero(arr) 
arr_inv[nz] = 1 / arr[nz] 
return arr_inv 


def variation_of_information(x, y): 
# 计算 列 联 和 矩阵 ， 即 联合 概率 矩阵 
n = x.size 
Pxy = Sparse.coo_matrix((np.fuLLCn，1/n)，(x.raveL()，y.raveL()))， 
dtype=fLoat) .tocsr() 
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# 计算 边际 概率 ， 并 转换 为 一 维 数组 
px = np.ravel(Pxy.sum(axis=1)) 
py = np.ravel(Pxy.sum(axis=0)) 





# 用 稀疏 矩阵 线性 代数 计算 信息 变异 

# 首先 ， 计 算 逆 对 角 拢 阵 

Px_inv = sparse.diags(invert_nonzero(Cpx)) 
Py_inv = sparse.diags(invert_nonzero(Cpy)) 


# 然后 ， 计 算 
px @ xLog1x(Px_inv @ Pxy).sum(axis=1) 
XLog1x(Pxy @ Py_inv).sum(axis=0) @ py 





























# 返回 它们 的 和 
return float(hygx + hxgy) 








可 以 用 前 面 示例 中 的 s 和 TT 测试 一 下 ， 看 它 能 否 给 出 信息 变异 的 正确 值 (1)。 
variation of_information(S, T) 
1.0 
你 可 以 看 到 ， 我 们 使 用 了 3 种 类 型 的 稀疏 矩阵 (COO、CSR 和 对 角 阵 )， 以 便 在 列 联 


和 矩阵 稀疏 的 情况 下 有 效 地 计算 粹 ， 此 时 Numpy 的 效率 非常 低 。( 实 际 上 ，Python 的 
MemoryError 异常 促使 我 们 实现 了 这 一 整套 方法 ! ) 


5.9 使 用 信息 变异 


后 来 演示 一 下 信息 变异 的 应 用 ， 以 估计 一 幅 图 像 的 最 优 自动 分 割 。 你 可 能 还 记得 第 3 

中 那 只 正在 潜行 = 的 老虎 朋友 ( 见 图 5.2)。( 如 果 忘记 了 ， 那 么 你 应 该 提高 一 下 自己 的 风险 
评估 能 力 了 ! ) 通过 使 用 第 3 章 中 介绍 的 技能 ， 我 们 可 以 生成 分 割 这 幅 图 像 的 一 些 可 行 方 
法 ， 然 后 找 出 一 个 最 佳 方法 。 


from skimage import io 




















url = ('http://www.eecs.berkeley.edu/Research/Projects/CS/vision/bsds’ 
'/BSDS300/html/images/plain/normal/color/108073.jpg') 
tiger = io.imread(url) 


plt.imshow(tiger); 
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图 5-2: BSDS 老虎 图 像 ， 编 号 108073 


为 了 检验 图 像 分 割 效果 ， 我 们 需要 某 种 真实 结果 。 事 实证 明 ， 人 类 具有 极 好 的 老虎 识别 能 
力 〈 使 人 类 最 终 胜出 的 自然 选择 ) ， 因 此 我 们 需要 做 的 就 是 让 一 个 人 找到 老虎 。 好 在 伯 克 
利 大 学 的 研究 者 已 经 请 许多 人 看 过 这 幅 图 像 ， 并 进行 了 手工 分 割 。” 


我 们 看 看 来 自 伯克利 分 割 数据 集 和 基准 项 目 (Berkeley Segmentation Dataset and Benchmark) 
的 一 种 图 像 分 割 ( 见 图 5-3)。 值 得 注意 的 是 ， 人 类 所 做 的 图 像 分 割 之 间 存在 大 量变 异 。 如 
果 仔 细 检 查 各 种 不 同 的 老虎 分 割 结果 ， 就 会 发 现 有 些 人 比 其 他 人 更 注重 细 市 ， 他 们 将 户 苇 
的 轮 廊 都 画 出 来 了 ;， 有些 人 则 认为 老虎 在 水 中 的 倒影 也 有 必要 和 水 的 其 他 部 分 分 割 。 我 们 
选择 了 一 个 最 喜欢 的 分 割 〈 画 出 了 芦苇 轮廓 的 分 割 ， 因 为 我 们 是 那 种 据 求 完美 的 科学 家 )。 
但 必须 说 明 的 是 ， 真 的 没有 唯一 的 真实 结果 ! 

from scipy import ndimage as ndi 

from skimage import color 














































































































human_seg_url = ('http://www.eecs.berkeley.edu/Research/Projects/CS/" 
'vision/bsds/BSDS300/html/images/human/normal/’' 
'outline/color/1122/108073.jpg') 

boundaries = io.imread(human_seg_url) 

plt.imshow(boundaries); 





注 3: ARBELAEZ P, MAIRE M, FOWLKES C, et al. Contour detection and hierarchical image segmentation [C]// 
IEEE TPAMI, 2011, 33(5): 898-916. 
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图 5-3: 老虎 图 像 的 人 工分 割 
将 人 工分 割 结果 覆盖 到 老虎 图 像 上 ， 我 们 可 以 不 出 意料 地 ) 看 出 这 个 人 非常 成 功 地 找到 
了 老虎 ( 见 图 5-4)， 他 还 分 割 出 了 河岸 和 一 从 芦苇 。 干 得 漂亮 ， 编 号 为 1122 的 人 类 | 


human_seg = ndi.label(boundaries > 100)[0] 
plt.imshow(color.label2rgb(human_seg, tiger)); 
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图 5-4: 履 盖 后 的 老虎 图 像 的 人 工分 割 
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时 


现在 我 们 看 一 下 第 3 章 中 的 
( 见 图 5-5) ! 
# 画 出 一 张 RAG 一 一 所 有 代码 都 来 自 第 3 章 
import networkx as nx 


import numpy as np 
from skimage.future import graph 





像 分 割 代 码 ， 看 看 Python 能 在 老虎 识别 这 件 事 上 做 得 多 好 

















def add edge filter(values, graph): 
current = values[0] 
neighbors = values[1:] 
for neighbor in neighbors: 
graph.add_edge(current, neighbor) 
return 0. # generic_filter 需 要 一 个 返回 值 ， 但 实际 上 我 们 不 使 用 这 个 值 





def build_ rag(labels, image): 
g = nx.Graph() 
footprint = ndi.generate_ binary_structure(labels.ndim, connectivity=1) 
for j in range(LabeLs.ndim) : 
fp = np.swapaxes(footprint，j，0) 
fp[0，...] = 0 # 将 每 个 轴 最 上 面 的 footprint 设 为 0 
= Ndi.generic filter(labels, add edge filter, footprint=footprint, 
mode='nearest', extra_arguments=(g,)) 
for n in g: 
g.node[n]['total color'] = np.zeros(3, np.double) 
g.node[n]['pixel count'] = 0 
for index in np.ndindex(labels.shape): 
n = labels[index] 
g.node[n]['total color'] += image[index] 
g.node[n]['pixel count'] += 1 
return g 


def threshoLd graph(g, t): 
to_remove = ((u, v) for (yu, v, d) in g.edges(data=True) 
if d['weight'] > t) 
g.remove_edges_from(to_remove) 
# 基准 分 割 
from skimage import segmentation 
seg = segmentation.slic(tiger, Nn_segments=30, compactness=40.0, 
enforce_connectivity=True, sigma=3) 
plt.imshow(color.label2rgb(seg, tiger)); 
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5-5: 老虎 图 像 的 基准 SLIC 分 割 


第 3 章 中 设 定 图 的 半 值 为 80， 没 有 给 出 任何 解释 ， 颇 有 点 蒙混 过 关 的 意思 。 现 在 我 们 来 仔 
细 研 究 一 下 ， 看 看 这 个 病 值 对 图 像 分 割 的 准确 度 到 底 有 什么 影响 。 我 们 将 分 割 代码 写成 一 
个 函数 ， 以 便 使 用 。 


def rag_segmentation(base_seg, image, threshold=80): 

g = build_rag(base_seg, image) 

for n in g: 

node = g.node[n] 

node[ 'mean'] = node['total color'] / node[ 'pixeL count'] 
for u, v in g.edges iter(): 

d = g.node[ul]['mean'] - g.node[v]['mean'] 

g[ul[v]['weight'] = np.linalg.norm(d) 





threshold_graph(g, threshold) 


map_array = np.zeros(np.max(seg) + 1, int) 
for i, segment in enumerate(nx.connected_ components(g)): 
for initial in segment: 
map_array[int(initial)] = i 
segmented = map_array[seg] 
return(segmented) 


我 们 试验 几 个 阔 值 ， 并 看 看 分 别 是 什么 情况 ( 见 图 5-6 和 图 5-7)。 


auto_seg_10 = rag_segmentation(seg，tiger，threshoLd=10) 
plt.imshow(color.label2rgb(auto_seg_10, tiger)); 
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图 5-6: 基于 RAG 的 老虎 图 像 分 割 ， 半 值 为 10 


auto_seg_40 = rag_segmentation(seg, tiger, threshold=40) 
plt.imshow(color.label2rgb(auto_seg_40, tiger)); 
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图 5-7: 基于 RAG 的 老虎 图 像 分 割 ， 半 值 为 40 
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实际 上 ， 第 
(因为 我 们 是 人 类 ， 所 以 可 以 这 么 做 )， 但 对 于 程序 图 像 分 割 来 说 ， 这 种 方法 完全 行 不 通 











3 章 中 也 使 用 了 不 同 的 国 值 进行 多 次 分 割 ， 然 后 选择 了 一 个 分 割 效果 特别 好 的 











显然 ， 我 们 需要 一 种 自动 评价 方法 。 


现在 看 来 ， 似 乎 国 值 越 高 ， 分 割 效 果 就 越 好 。 但 因为 有 真实 结果 ， 所 以 我 们 可 以 算出 一 个 
确切 的 数值 ! 通过 使 用 所 有 的 稀 下 矩 阵 技能 ， 我 们 可 以 为 每 个 分 割 结果 计算 出 信息 变异 。 


variation of_information(auto_seg_10, human_seg) 





















































3.44884607874861 


variation_of_information(auto_seg_40, human_seg) 


1.0381218706889725 
高 国人 值 具有 较 小 的 信息 变异 ， 因 此 是 更 好 的 分 割 ! 现在 可 以 为 可 能 范围 内 的 浆 值 计算 信息 
变异 ， 然 后 看 看 哪个 闵 值 能 得 到 与 人 工 真实 结果 最 接近 的 分 割 〈 见 图 5-8) 。 

# 试验 多 个 国 值 


def vi_at_threshoLd(seg，tiger，human_seg，threshoLd) : 

















auto_seg = rag_segmentation(seg, tiger, threshold) 

return variation of _information(auto_seg, human_seg) 

thresholds = range(0, 110, 10) 

vi_per_threshold = [vi at_ threshold(seg, tiger, human_seg, threshold) 
for threshold in thresholds] 


plt.plot(thresholds, vi_per_threshold); 
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图 5-8: 分 割 结果 信息 变异 与 阐 值 的 关系 








不 出 所 料 ， 从 图 中 可 以 看 出 ， 选 择 threshold = 89 确实 可 以 得 出 最 好 的 分 割 结 果 之 一 〈 见 
图 5-9)。 但 更 重要 的 是 ， 我 们 得 到 了 一 种 可 以 自动 分 割 任意 图 像 的 方法 ! 


auto_seg = rag_segmentation(seg, tiger, threshold=80) 
plt.imshow(color.label2rgb(auto_seg, tiger)); 
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图 5-9: 基于 信息 变异 曲线 的 老虎 图 像 最 优 分 割 


进一步 工作 : 图 像 分 割 实战 

从 伯克利 分 割 数据 集 和 基准 项 目 中 再 选择 一 些 图 片 ， 并 试 着 找 出 它们 的 最 佳 国 值 。 用 这 些 
国 值 的 均值 或 中 位 数 来 分 割 一 幅 新 图 片 。 你 能 得 到 一 个 合理 的 分 割 结果 吗 ? “ 

有 时 数据 中 会 有 很 多 缺口 ， 这 种 情形 在 现实 生活 中 极其 常见 ， 稀 踊 怎 阵 是 表示 这 种 数据 的 
一 种 有 效 方式 。 学 习 完 本 章 后 ， 你 可 能 已 经 开始 意识 到 何 时 可 以 使 用 稀疏 矩阵， 而 且 也 知 
道 了 如 何 使 用 。 

特别 适合 稀 玻 矩阵 大 显 身 手 的 一 种 情形 是 稀 玻 线性 代数 。 继 续 学 习 下 一 章 ， 你 将 发 现 稀 玻 
和 矩阵 的 更 多 用 途 ! 









































注 4: ARBELAEZ P, MAIRE M, FOWLKES C, et al. Contour detection and hierarchical image segmentation [C]// 
IEEE TPAMI, 2011, 33(5): 898-916. 
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第 6 章 


SciPy 中 的 线性 代数 





没有 人 能 告诉 你 给 阵 是 什么 。 你 必须 亲眼 见 到 它 。 
一 一 孟菲斯 ,《 黑客 帝国 》 
第 4 章 介 绍 了 快速 傅 里 叶 变 换 ， 与 第 4 章 一 样 ， 本 章 将 主要 介绍 一 种 优雅 的 方法 。 我 们 将 
重点 介绍 SciPy 中 线性 代数 运算 所 用 的 包 ， 它 为 很 多 科学 计算 功能 提供 了 基础 。 


6.1 线性 代数 基础 


编程 图 书 实在 不 是 学 习 线 性 代数 本 身 的 好 地 方 ， 因 此 我 们 假设 你 已 经 熟悉 线性 代数 的 基 
本 概念 。 至 少 你 应 该 知道 线性 代数 处 理 的 主要 是 向 量 (数值 的 有 序 集合 ) ， 并 通过 与 矩阵 
(向 量 的 集合 ) 相 乘 来 对 向 量 进行 转换 。 如 果 你 对 这 些 概念 一 无 所 知 ， 那 就 应 该 在 学 习 本 
章 前 找 一 本 线性 代数 导论 之 类 的 教科 书 看 一 下 。 我 们 强烈 推荐 Gil Strang 的 《线性 代数 及 
其 应 用 》 一 书 。 尽 管 如 此 ， 你 了 解 一 下 相关 基础 知识 就 是 够 了 ， 我 们 希望 本 章 内 容 能 够 体 
现 出 线性 代数 的 强大 功能 ， 同 时 保持 操作 相对 简单 ! 

另外 ， 为 了 符合 线性 代数 的 习惯 ， 我 们 将 打破 Python 的 命名 惯例 。Python 中 的 变量 名 通常 
以 小 写字 母 开 头 。 但 在 线性 代数 中 ， 和 矩阵 用 大 写字 母 表 示 ， 向 量 和 标量 用 小 写字 母 表 示 。 
由 于 我 们 要 处 理 相当 多 的 矩阵 和 向 量 ， 遵 循 线 性 代数 的 习惯 会 更 加 简洁 明了 。 因 此 ， 表 示 
和 矩阵 的 变量 将 以 大 写字 母 开 头 ， 而 向 量 和 数值 将 以 小 写字 母 开头 ， 如 以 下 代码 所 示 。 


import numpy as np 
m,n = (5，6) # 标量 



























































M = np.ones((m，n)) # 和 抑 阵 
v= np.random.random((n,)) # 向 量 
Ww = M@v# 男 一 个 向 量 
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在 数学 符号 中 ， 向 量 通常 用 黑 斜 体 表示 ， 如 v 和 w; 标量 则 用 白 斜 体 表示 ， 如 m 和 nn。 
Python 代码 中 无 法 体现 这 种 区 别 ， 因 此 我 们 将 通过 上 下 文 来 区 分 向 量 和 标量 。 


6.2 图 的 拉 普 拉 斯 矩阵 


我 们 在 第 3 章 中 讨论 过 图 ， 将 图 像 区 域 表 示 为 节点 ， 节 点 之 间 用 边 连接 。 但 我 们 使 用 的 分 
析 方 法 相当 简单 ， 只 对 图 设 定 阔 值 ， 然 后 删除 所 有 高 于 某 个 值 的 边 。 这 种 国 值 化 在 简单 的 情 
况 下 很 有 效 ， 但 很 容易 失败 ， 只 要 有 一 个 值 落 在 国 值 错误 的 一 边 ， 就 可 能 导致 方法 失败 。 


举 个 例子 ,假设 你 正 处 于 一 场 战 争 中 ， 敌 军 与 你 们 隔 河 对 峙 。 为 了 不 让 敌人 过 来 ， 你 决定 
炸 掉 你 们 之 间 所 有 的 桥 。 根 据 情报 ， 每 炸 毁 一 座 桥 需要 t 千 克 TNT 炸药 ， 但 你 自己 领土 上 
的 桥 能 承受 t+1 千克 炸药 。 学 习 完 第 3 章 后 ， 或 许 你 可 以 命令 突击 队员 在 这 一 区 域 的 每 座 
桥 上 都 引爆 :千克 TNT 炸药 。 但 如 果 其 中 一 座 桥 的 情报 有 误 ， 导 致 它 没 有 被 炸 毁 ， 那 么 敌 
人 就 会 长 驱 直入 了 ! 这 简直 是 一 场 灾 难 ! 
因此 ， 本 章 将 基于 线性 代数 介绍 其 他 几 种 分 析 图 的 方法 。 研 究 表明 ， 我 们 可 以 将 图 G 看 作 
邻接 矩阵 (adjacency matrix)， 将 图 中 节点 从 0 到 n -1 进行 编号 ， 只 要 节点 i 和 节点 j 之 
间 有 一 条 边 ， 那 么 就 在 全 阵 的 第 i 行 第 j 列 放 一 个 1。 换 句 话 说， 如 果 有 一 个 邻接 和 矩阵 4， 
那么 4;;=1， 当 且 仅 当 G 中 有 一 条 边 (i, 让。 然后 我 们 可 以 用 线性 代数 技术 来 研究 矩阵 ， 这 
样 经 常 能 得 到 非常 显著 的 成 果 。 

节点 的 度 定义 为 与 其 相连 的 边 的 数量 。 例 如 ， 在 一 个 图 中 ， 如 果 一 个 节点 与 其 他 5 个 节点 
相连 ， 那 么 它 的 度 就 是 5。( 稍 后 我 们 还 要 根据 边 是 从 节点 “出 发 ”还 是 “到 达 ” 来 区 分 
“出 度 ” 和 “入 度 ”。) 用 矩阵 术语 来 说 ， 度 对 应 一 行 或 一 列 中 值 的 总 和 。 


图 的 拉 普 拉 斯 矩阵 〈 简 称 拉 普 拉 斯 矩阵 ) 的 定义 是 度 矩 阵 刀 《对 角 线 上 是 每 个 节点 的 度 ， 
其 余 元 素 为 0) 与 邻接 矩阵 4 的 差 。 











































































































L=D-A 

我 们 肯定 不 能 用 所 有 相关 线性 代数 理论 来 解释 这 个 矩阵 的 性 质 ， 但 知道 它 确 实 有 一 些 非常 
好 的 性 质 就 够 了 。 我 们 将 在 后 面 的 内 容 中 使 用 其 中 的 几 个 性 质 。 

首先 看 一 下 工 的 特征 向 量 (eigenvector)。 和 矩阵 M 的 特征 向 量 "是 一 个 能 满足 以 下 条 件 的 
向 量 : 对 于 某 个 值 14，Mw = 和 ?，14 称 为 特征 值 。 换 名 话说 ，y 是 一 个 与 M 相关 的 特殊 向 量 ， 
因为 My 只 改变 了 向 量 的 大 小 ， 而 设 有 改变 其 方向 。 正 如 我 们 即将 看 到 的 ， 特 征 向 量具 有 
很 多 有 用 的 性 质 ， 有 时 甚至 非常 奇妙 ! 

我 们 来 看 一 个 示例 。 当 一 个 3x 3 的 旋转 矩阵 R 乘 以 任意 一 个 三 维 向 量 p 时 ， 可 以 将 p 绕 z 
轴 旋 转 30 度 。 除 了 位 于 z 轴 上 的 癌 量 ，R 可 以 旋转 所 有 问 量 。z 轴 上 的 向 量 看 不 到 任何 效 
果 ， 用 线性 代数 来 表示 就 是 Rp =p ( 即 Rp = 加 )， 特 征 值 4= 1。 


练习 : 旋转 矩阵 
思考 下 面 的 旋转 垂 阵 。 
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coSO -SinO0 
及 =|SinO cosO0 
0 0 1 


当 有 R 乘 以 一 个 三 维 列 向 量 p= [xyz] 时 ,结果 向 量 Rp 会 绕 z 轴 旋 转 9 度 。 

(1) 令 0 为 45 度 ,通过 试验 任意 几 个 向 量 ,， 验 证 R 使 向 量 绕 z 轴 旋 转 的 效果 。 记 住 ，Python 
用 @ 表 示 和 矩阵 乘法 。 

(2) 矩阵 $S= RR 的 作用 是 什么 ?用 Python 验证 一 下 。 

(3) 验证 向 量 [0 0 1] 乘 以 R 后 保持 不 变 ， 换 名 话说 ，Rp = lp， 这 说 明 p 是 R 特征 值 为 1 
的 特征 向 量 。 

(4) 用 np.linalg.eig 找 出 R 的 特征 值 和 特征 向 量 ， 并 验证 [0 0 1] 确实 是 一 个 特征 向 量 
而 且 对 应 的 特征 值 为 1。 

回 到 拉 普 拉 斯 什 阵 。 可 视 化 是 网 络 分 析 中 的 一 个 常见 问题 。 节 点 和 边 应 该 如 何 绘 制 ， 才 能 

不 像 图 6-1 中 那样 一 团 乱 麻 呢 ? 





























图 6-1: 维基 百科 结构 的 可 视 化 (由 Chris Davis 制作 ,遵循 CC-BY-SA-3.0 许可 协议 发 布 ) 





一 种 方法 是 将 共享 多 个 边 的 节点 放 在 一 起 。 事 实证 明 ， 要 想 完成 这 个 任务 ， 我 们 可 以 使 用 
拉 普 拉 斯 矩阵 第 二 小 的 特征 值 及 其 对 应 的 特征 向 量 ，j 这 个 特征 向 量 太 重要 了 ， 以 至 于 有 -- 
个 专 有 名 称 : Fiedler 向 量 。 


接 下 来 用 一 个 最 小 的 网 络 来 演示 一 下 ， 从 创建 邻接 矩阵 开始 。 


import numpy as np 

















A=np.array([[0，1，1，0，0，0]， 
[1，0，1，0，0，0]， 
[1，1，0，1，0，0]， 
[0，0，1，0，1，1]， 
[06，0，0，1，0，1]， 

[0, 0, 0, 1, 1, 0]], dtype=float) 





可 以 用 NetworkX 画 出 这 个 网 络 。 首 先 ， 像 往常 一 样 初始 化 Matplotlib。 


# 使 图 形 显 示 在 文本 中 ， 定 制 绘图 风格 
%matplotlib inline 

import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 


现在 就 可 以 绘制 出 网 络 图 了 。 


import networkx as nx 
g = Nx.from numpy_matrix(A) 
layout = nx.spring_layout(g, pos=nx.circular_layout(g)) 
nx.draw(g，pos=Layout， 
with_labels=True, node_color='white') 





























从 上 图 可 以 看 到 ， 结 点 自动 分 成 了 两 个 组 : 0、1、2 和 3、4、5。Fiedler 向 量 能 告诉 我 们 
这 种 情况 吗 ? 第 一 步 ， 我 们 必须 计算 出 度 矩 阵 和 拉 普 拉 斯 矩阵 。 通 过 沿 着 4 的 任意 一 个 轴 
求 和 ， 我 们 先 得 到 度 。( 任 意 一 个 轴 都 可 以 ， 因 为 4 是 对 称 的 。) 
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d = np.sum(A, axis=0) 

print(d) 

CS 3 2] 
然后 将 这 些 度 放 在 与 4 形状 相同 的 一 个 对 角 阵 中 ， 这 就 是 度 和 矩阵 。 可 以 用 np.diag 函数 来 
完成 这 个 任务 。 


D = np.diag(d) 





print(D) 

[[ 2. 0， 0. 0. 0. 0.] 
[0. 2. 9. 909. 0. 0.] 
[0. 0. 3. 0. 0. 0.] 
[0. 0. 0. 3. 0. 0.] 
[0. 0. 0. 0. 2. 0.] 
[90. 0. 0. 0. 0. 2.]] 

最 后 根据 定义 得 出 拉 普 拉 斯 矩阵 。 

L=D-A 

print(L) 

[[ 2. -1. -1. 0. 0. 0.] 
[-1. 2. -1. 0. 0. 0.] 
[-1. -1. 3. -1. 0. 0.] 
[ 0. 60. -1. 3. -1. -1.] 
[ 0. 0. 0. -1. 2. -1.] 
[90. 0. 0. -1. -1. 2.]] 


因为 工 是 对 称 的 ， 所 以 可 以 用 np.linalg.eigh 函数 计算 出 特征 值 和 特征 向 量 。 


val, Vec = np.linalg.eigh(L) 


我 们 可 以 验证 返回 值 ， 看 看 它们 是 否 满足 特征 值 和 特征 向 量 的 定义 。 例 如 ， 其 中 一 个 特征 
值 为 3。 


np.any(np.isclose(val, 3)) 





True 


我 们 还 可 以 验证 用 怎 阵 工 乘 以 对 应 的 特征 向 量 确实 与 用 3 乘 以 该 向 量 相同 。 


idx_lambda3 = np.argmin(np.abs(val - 3)) 
v3 = Vec[:, idx_lambda3] 





print(v3) 
print(L @ v3) 


0.37796447 -0.37796447 -0.37796447 0.68898224 -0.31101776] 


[ 0. 
[ 9. 1.13389342 -1.13389342 -1.13389342 2.06694671 -0.93305329] 


二 





正如 前 面 所 说 ，Fiedler 向 量 是 与 世 的 次 小 特征 值 对 应 的 特征 向 量 。 对 特征 值 排序 可 以 找 出 
次 小 的 特征 值 。 


plt.plot(np.sort(val), linestyle='-', marker='o'); 
































这 是 第 一 个 非 零 特 征 值 ， 接 近 0.4。Fiedler 向 量 就 是 与 这 个 特征 值 相对 应 的 特征 向 量 ( 见 
图 6-2 ) 。 


f = Vec[:, np.argsort(val)[1]] 
plt.plot(f, linestyle='-', marker='o'); 

















6-2: 上 的 Fiedler 向 量 





ScipPy 中 的 线性 代数 | 133 


非常 明显 : 通过 Fiedler 向 量 中 各 元 素 的 符号 ， 我 们 可 以 将 市 点 分 成 图 6-3 中 的 两 个 组 ! 


colors = ['orange' if eigv > 0 else 'gray' for eigv in f] 
nx.draw(g, pos=layout, with_labels=True, node_color=colors) 














De 








图 6-3: 上 的 Fiedler 向 量 中 按 符号 着 色 的 节点 


6.3 大脑 数据 的 拉 普 拉 斯 矩阵 


我 们 通过 一 个 实际 示例 来 演示 这 个 过 程 ， 生 成 一 张 蠕虫 脑 细胞 分 布 图 ， 也 就 是 第 3 章 中 
提 到 的 Varshney 等 人 的 论文 中 的 图 2〈 关 于 如 何 完 成 这 张 图 的 信息 ， 参 见 论文 的 补充 资 
料 : http://journals.plos.org/ploscompbiol/article/file?id=info:doi/10.1371/journal.pcbi.1001066. 
s001&type=supplementary) 。 为 了 得 到 蠕虫 大 脑 神 经 元 的 分 布 ， 他 们 使 用 了 称 为 度 标准 化 拉 
普 拉 斯 矩阵 的 相关 和 矩阵。 





























因为 神经 元 的 顺序 在 这 个 分 析 中 非常 重要 ， 所 以 我 们 使 用 一 个 经 过 预 处 理 的 数据 集 ， 以 避 
免 本 章 充 斥 着 数据 清洗 的 内 容 。 我 们 从 Lav Varshney 的 个 人 网 站 获取 了 原始 数据 ， 并 将 处 

















i 











里 后 的 数据 放 在 data/ 目录 中 。 


先 加 载 数 据 。 数 据 分 为 如 下 4 个 部 分 。 





化 学 突 触 
间 阶 连接 





A 











A 


络 ， 突 触 前 神经 元 可 以 通过 这 个 网 络 向 突 触 后 神经 元 发 射 化 学 信号 。 
络 ， 其 中 包括 神经 元 之 间 的 电 接触 。 


。 神经 元 ID (名 称 )。 


- 感觉 神经 元 (sensory neuron) 是 用 于 感知 来 自 外 部 世界 的 信号 的 神经 元 , 编码 为 0; 
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- 运动 神经 元 《motor neuron) 是 用 于 刺激 肌肉 ， 使 蠕虫 运动 的 神经 元 ， 编 码 为 2 
- 中 间 神 经 元 (interneuron) 是 感觉 神经 元 和 运动 神经 元 之 间 的 神经 元 ， 可 以 在 二 者 
之 间 处 理 复杂 信号 ， 编 码 为 1。 
import numpy as np 
Chem = np.load('data/chem-network.npy') 
Gap = np.Load('data/gap-network.npy ') 


neuron ids = np.Load('data/neurons.npy ') 
neuron_types = np.Load('data/neuron-types.npy ') 


接 下 来 简化 网 络 ， 将 两 种 连接 合 二 为 一 ， 并 通过 取 神 经 元 入 连接 和 出 连接 的 平均 数 除 去 网 
络 的 有 向 性 。 别 担心 这 样 做 会 有 问题 ， 因 为 我 们 只 是 想 看 看 神经 元 在 图 上 的 布局 ， 只 需要 
关注 神经 元 之 间 是 否 有 连接 ， 无 须 在 意 连 接 的 方向 。 我 们 称 结果 矩阵 为 连接 和 矩阵， 用 C 表 
示 ， 这 只 是 另 一 种 邻接 矩阵 。 

A = Chem + Gap 

C=(A+A.T) /2 





























得 到 拉 普 拉 斯 矩阵 工 ， 需 要 度 和 矩阵 刀 ， 它 包含 了 市 点 守 在 忆 媳 位置 的 度 ， 其 他 位 置 均 为 0。 


degrees = np.sum(C, axis=0) 
D = np.diag(degrees) 


和 前 面 一 样 ， 现 在 就 可 以 得 到 拉 普 拉 斯 矩阵 。 

L=D- 人 
排列 节点 ， 使 神经 元 在 总 体 上 尽 可 能 靠近 其 下 游 邻居 节点 的 正 上 方 ， 这 样 就 可 以 确定 论文 
图 2 中 的 纵 坐 标 。Varshney 等 人 称 这 种 测量 方式 为 “处 理 深 度 ”， 通 过 解 一 个 由 拉 普 拉 斯 
和 矩阵 构成 的 线性 方程 ， 可 以 得 出 处 理 深 度 。 我 们 可 以 使 用 scipy.tinalg.pinv 〈 即 伪 逆 拢 
阵 ) 来 解 这 个 方程 。 

from scipy import linalg 


b = np.sum(C * np.sign(A - A.T), axis=1) 
z = LinaLg.pinv(L) Q b 


(注意 @ 符 号 的 用 法 ， 它 是 在 Python 3.5 中 引入 的 ， 用 于 表示 和 矩阵 乘法 。 正 如 我 们 在 前 言 和 
第 5 章 中 提 到 的 ， 更 早 的 Python 版 本 中 需要 使 用 函数 np.dot。) 
为 了 得 到 度 标准 化 拉 普 拉 斯 矩阵 G， 我 们 需要 和 矩阵 D 的 平方 根 的 倒数 。 


Dinv2 = np.diag(1 / np.sqrt(degrees)) 
Q = Dinv2 @ L @ Dinv2 


最 后 可 以 提取 出 神经 元 的 x 坐标， 以 确保 高 连接 神经 元 集中 在 一 起 : 用 度 进 行 标准 化 的 、 
与 矩阵 CO 的 次 小 特征 值 对 应 的 特征 向 量 。 

val, Vec = linalg.eig(Q) 
注意 numpy.linalg.eig 文档 中 的 以 下 提示 : 

特征 值 不 一 定 是 排 过 序 的 。 
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尽管 SciPy 的 eig 文档 中 没有 这 条 和 警告， 但 确实 是 这 样 的 。 因 此 ， 我 们 自己 必须 对 特征 值 








~ 




















及 其 对 应 的 特征 向 量 进行 排序 。 


smallest_ first = np.argsort(val) 
val = val[smallest first] 
Vec = Vec[:, smallest first] 


这 





x 








样 就 可 以 找 出 计算 近邻 坐标 所 需 的 特征 向 量 。 


= Dinv2 @ Vec[:, 1] 





(使 用 这 个 向 量 的 原因 说 来 话 长 ， 具 体内 容 请 参见 之 前 的 论文 补充 资料 链接 。 简 而 言 之 ， 


选择 这 


个 向 量 可 以 使 神经 元 之 间 的 链接 总 长 度 最 短 。) 





在 进行 下 一 步 之 前 ， 必 须 先 说 明 一 个 小 问题 : 特征 向 量 就 是 一 个 可 乘 的 常量 。 这 可 以 根据 


特征 向 


于 任意 





量 的 定义 推导 出 来 。 假 设 ”是 矩阵 M 的 一 个 特征 向 量 ， 对 应 的 特征 值 是 4， 那 么 对 
标量 值 c，cy 也 是 M 的 一 个 特征 向 量 ， 因 为 Mv = 和 意味 着 Mow) = 4X(av)。 因 此 ， 


















































用 软件 包 计 算 W 的 特征 向 量 时 ， 它 既 可 能 返回 v， 也 可 能 返回 -y。 为 了 确保 能 重新 生成 
Varshney 等 人 论文 中 的 布局 ， 我 们 必须 确定 所 有 向 量 都 指向 与 原文 相同 的 方向 ， 而 不 是 相 


反 的 方 








向 。 要 想 达到 这 个 目的 ， 我 们 可 以 任意 选择 图 2 中 的 一 个 神经 元 ， 并 检查 该 位 置 上 





x 的 符号 ， 如 果 与 图 2 中 的 符号 不 符 ， 则 取 其 相反 数 。 


vc2_index = np.argwhere(neuron_ids == "VC02 ') 
if x[vc2_index] < 0: 


现在 就 





X= -XxX 


只 剩 下 节点 和 边 的 绘制 了 。 我 们 按照 neuron_types 中 保存 的 类 型 为 节点 着 色 ， 使 用 





既 好 看 又 实用 的 colorbrewer 调 色 板 。 


from matplotlib.colors import ListedColormap 
from matplotlib.collections import LineCollection 


def plot connectome(x_coords, y_coords, conn_matrix, *, 


labels=(), types=None, type_names=('',), 
xlabel='', ylabel="'): 
"""Plot neurons as points connected by lines. 


Neurons can have different types (up to 6 distinct colors). 


Parameters 
x_coords, y_coords : array of float, shape (N,) 
The x-coordinates and y-coordinates of the neurons. 
conn_matrix : array or sparse matrix of float, shape (N, N) 
The connectivity matrix, with nonzero entry (i, j) if and only 
if node i and node j are connected. 
labels : array-like of string, shape (N,), optional 
The names of the nodes. 
types : array of int, shape (N,), optional 
The type (e.g. sensory neuron, interneuron) of each node. 
type_names : array-like of string, optional 
The name of each value of ‘types'’. For example, if a 0 in 
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`types ”means "sensory neuron", then ‘type_names[0] should 
be "sensory neuron". 
xlabel, ylabel : str, optional 
Labels for the axes. 
if types is None: 
types = np.zeros(x_coords.shape, dtype=int) 
ntypes = Len(np.unitque(types ) ) 
colors = plt.rcPparams['axes.prop_cycle'][:ntypes].by_key()['color'] 
cmap = ListedColormap(colors) 


fig, ax = plt.subplots() 


# 绘制 神经 元 位 置 
for neuron_type in range(ntypes): 
plotting = (types == neuron_type) 
pts = ax.scatter(x_coords[plotting], y_coords[plotting], 
c=cmap(neuron_type), s=4, zorder=1) 
pts.set_label(type_names[neuron_type]) 


# 添加 文本 标签 
for x, y, label in zip(x_coords, y_coords, labels): 
ax.text(x, y, " + label, 
verticalalignment='center', fontsize=3, zorder=2) 


# 绘制 边 
pre, post = np.nonzero(conn_matrix) 
Links = np.array([[x_coords[pre], x_coords[post]], 
[y_coords[pre], y_coords[post]]]).T 
ax.add_collection(LineCollection(links, color='lightgray', 
lw=0.3, alpha=0.5, zorder=0)) 


ax.legend(scatterpoints=3, fontsize=6) 


ax.set_xlabel(xlabel, fontsize=8) 
ax.set_ylabel(ylabel, fontsize=8) 


plt.show() 


现在 用 这 个 函数 来 绘制 神经 元 ， 如 以 下 代码 和 图 片 所 示 。 


plot_connectome(x, z, C, labels=neuron_ids, types=neuron_types, 
type_names=['sensory neurons', 'interneurons', 
'motor neurons'], 
xlabel='Affinity eigenvector 1', ylabel='Processing depth') 
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J 一 个 蠕虫 的 大 脑 ! 正如 原文 所 述 ， 你 可 以 看 到 从 感觉 神经 元 开始 ， 经 由 中 间 神 
经 元 网 络 ， 再 到 运动 神经 元 的 这 种 自 顶 向 下 的 处 理 过 程 。 你 还 可 以 看 到 运动 神经 元 中 有 两 
个 明显 的 分 组 ， 分 别 对 应 蠕虫 的 脖颈 ( 左 侧 ) 和 身体 〈 右 侧 )。 


6.3.1 练习 : 显示 近邻 视图 
如 何 修改 以 上 代码 来 显示 论文 图 2B 中 的 近邻 视图 呢 ? 


6.3.2 ”练习 挑战 : 稀疏 矩阵 线性 代数 


以 上 代码 用 NumPy 数组 来 保存 矩阵 并 执行 必要 的 计算 。 因 为 我 们 使 用 的 是 一 个 比较 小 的 
图 ， 不 到 300 个 市 点 ， 所 以 这 样 做 是 可 行 的 。 但 对 于 更 大 的 图 ， 这 种 方法 会 失效 。 


例如 ， 有 人 可 能 想 分 析 PyPI ( 即 Python 包 索 引 ， 其 中 包括 10 000 多 个 Python 包 ) 中 列 出 
的 各 个 库 之 间 的 联系 ， 那 么 保存 这 个 图 的 拉 普 拉 斯 矩阵 就 需要 8 x (100 x 10) = 8x10" 字 
节 ， 即 80 GB 的 内 存 。 如 果 再 加 上 邻接 矩阵 、 对 称 邻 接 矩 阵 、 伪 逆 和 矩阵 等 计算 中 需要 的 临 
时 矩阵， 所 需 内 存 就 会 超过 480 GB ， 这 已 经 超过 了 绝 大 多 数 台 式 计 算 机 的 内 存 极限 。 
可 能 有 人 会 这 样 想 :“ 哼 ， 我 的 电脑 有 512 GB 的 内 存 ! 对 付 这 种 所 谓 的 “大 ”图 还 不 是 小 
菜 一 碟 ! ” 

可 能 是 这 样 的 。 但 如 果 你 想 分 析 美 国 计 算 机 协会 的 引用 图 呢 ? 这 个 网 络 包 含 超过 200 万 条 
学 术 文 献 和 引用 条 目 ， 甚 拉 普 拉 斯 矩阵 大 概 需要 32 TB 的 内 存 。 








































































































然而 我 们 知道 ， 表 示 这 种 依赖 和 引用 的 图 是 稀 朴 的 : 一 个 包 通常 只 依赖 于 其 他 几 个 包 ， 论 
文 与 专著 通常 也 只 引用 其 他 几 种 论文 和 专著 。 因 此 ， 可 以 用 scipy.sparse ( 见 第 5 章 ) 中 
的 稀 玻 数据 结构 来 保存 上 面 所 说 的 矩阵 ， 并 用 scipy.sparse.LinatLg 中 的 线性 代数 函数 来 
计算 需要 的 值 。 


研究 一 下 scipy.sparse.linalg 的 文档 ， 实 现 上 面 计算 过 程 的 一 个 稀 玻 和 矩 阵 版 本 。 
稀疏 和 矩阵 的 擅 逆 一 般 不 是 稀 朴 的， 因此 这 里 不 能 使 用 伪 逆 和 矩阵。 同 理 ， 你 


也 不 能 得 到 一 个 稀疏 和 矩阵 的 所 有 特征 向 量 ， 因 为 它们 会 一 起 构成 一 个 稠密 
算 阵 。 












































你 可 以 在 下 面 的 附注 栏 中 找到 部 分 解决 方案 (答案 当然 在 附录 中 )， 但 我 强烈 建议 你 自己 
尝试 一 下 。 








求解 程序 
SciPy 中 有 若干 种 支持 稀疏 矩阵 的 可 和 迭代 求解 程序 ， 有 时 并 不 确定 应 该 使 用 哪 一 种 。 遗 
憾 的 是 ， 这 个 问题 也 很 难 回答 ， 因 为 不 同 的 算法 在 收敛 速度 、 稳 定性 、 准 确 性 和 内 存 
使 用 等 方面 各 有 千秋 。 即 使 检查 了 输入 数据 ， 也 不 太 可 能 预测 出 哪 种 算法 的 效果 最 好 。 


以 下 是 选择 可 选 代 求 解 程 序 的 大 体 原 则 。 


。 a 阵 4 是 对 称 并 正定 的 ， 那 么 可 以 使 用 共 斩 梯 度 求 解 程序 cg。 如 果 了 4 是 
对 称 的 ， 但 是 近 奇 异 或 不 定 和 矩阵 ， 那 么 可 以 尝试 最 小 残 差 迭代 方法 minres。 

。 a 系统 ， 可 以 试 一 下 双 共 斩 梯 度 稳定 方法 bicgstab。 共 力 梯 度 平 方法 cgs 
速度 会 快 一 点 ， 但 收敛 速度 不 太 稳 定 

。 如 果 需 要 求解 很 多 相似 系统 ， 可 以 使 用 LGMRES 算法 Lgmres。 

。 如 果 4 不 是 方 阵 ， 可 以 使 用 最 小 二 乘 算法 Lsmr 。 

延伸 阅读 参见 

。 Noél M. Nachtigal、Satish C. Reddy 和 Lloyd N. Trefethen 的 文章 “How Fast are Nonsymmetric 
Matrix Iterations?”，1992 年 发 表 于 SI4M Journal on Matrix Analysis and Applications， 


第 13 考 ， 第 3 期 ， 第 778~795 页 ; 
。 Jack Dongarra 的 文章 “Survey of Recent Krylov Methods ,发表 于 1995 年 11 月 20 日 。 











6.4 PageRank: 用 于 声望 和 重要 性 的 线性 代 类 


线性 代数 与 特征 向 量 的 另 一 个 应 用 是 Google 的 PageRank 算法 ， 这 个 算法 的 名 称 既 表示 跟 
网 页 有 关 ， 又 包含 了 Google 联合 创始 人 Larry Page 的 名 字 ， 非 常 有 趣 。 


为 了 按照 重要 性 对 网 页 排名 ， 你 可 以 计算 一 下 与 之 相连 的 其 他 网 页 的 数量 。 毕 竞 ， 如 果 所 
有 网 页 都 链接 到 某 个 网 页 ， 那 这 个 网 页 肯定 很 好 ， 不 是 吗 ? 但 这 种 度量 方式 很 容易 被 钻 空 
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子 。 想 要 使 自己 的 网 页 排名 上 升 ， 那 就 创建 尽 可 能 多 的 网 页 ， 并 让 它们 都 链接 到 初始 网 页 
就 可 以 了 。 

使 Google 获得 初步 成 功 的 核心 洞 见 是 ， 重 要 的 网 页 不 是 那些 被 很 多 网 页 链接 的 网 页 ， 而 
是 被 重要 网 页 链接 的 网 页 。 那 么 ， 怎 么 知道 其 他 网 页 是 否 重要 呢 ? 看 它们 本 身 是 否 也 被 重 
要 网 页 链接 。 以 此 类 推 。 

这 个 递归 定义 意味 着 网 页 的 重要 性 可 以 通过 所 谓 的 转移 矩阵 (transition matrix) 的 特征 向 
量 来 测量 ， 这 个 转移 矩阵 中 包含 了 网 页 之 间 的 链接 。 假 设 你 有 一 个 表示 网 页 重要 性 的 向 量 
r， 还 有 一 个 表示 网 页 链接 的 矩阵 M。 你 还 不 知道 了 的 具体 值 ， 但 知道 一 个 网 页 的 重要 性 
与 那些 链接 到 它 的 网 页 的 重要 性 之 和 成 正比 : r =aMr, 或 Mr = 和 人，4 = 1/a。 这 恰好 是 特征 
值 的 定义 ! 

通过 确认 转移 矩阵 满足 一 些 特殊 性 质 ， 我 们 可 以 进一步 确定 所 需 的 特征 值 是 1， 这 是 M 的 
最 大 特征 值 。 

转移 矩阵 假设 有 一 个 网 页 浏览 者 ， 通 稼 称 为 Webster， 他 随机 地 点 击 所 访问 网 页 上 的 一 个 
链接 ， 然 后 找 出 他 访问 到 给 定 网 页 的 概率 ， 这 个 概率 就 称 为 PageRank。 

由 于 Google 的 兴起 ， 研 究 者 将 PageRank 算法 应 用 到 了 各 种 网 络 。 接 下 来 使 用 的 示例 来 
自 Stefano Allesina 和 Mercedes Pascual 的 文章 “Googling Food Webs: Can an Eigenvector 
Measure Species”Importance for Coextinctions?”， 发 表 在 PLoS Computational Biology 期 二 


上 。 他 们 用 这 种 方法 来 研究 生态 食物 网 ， 即 将 物种 及 其 食物 链接 起 来 的 网 络 。 
简单 地 说 ， 如 果 你 想 知道 一 个 物种 在 某 个 生态 系统 中 的 重要 性 ， 那 么 就 应 该 看 看 有 多 少 物 
种 以 它 为 食物 。 如 果 以 它 为 食 的 物种 很 多 ， 一 且 这 个 物种 灭绝 了 ， 那 么 所 有 “依赖 ”这 个 
物种 的 物种 就 会 随 之 灭绝 。 用 网 络 的 术语 来 说 ， 物 种 的 入 度 决定 其 生态 重要 性 。 

PageRank 是 生态 系统 重要 性 的 一 种 更 好 的 度量 方式 吗 ? 

Allesina 教授 贴心 地 提供 了 几 个 食物 网 络 供 我 们 试验 。 我 们 用 图 形 标记 语言 格式 保存 了 
其 中 一 个 ， 这 个 网 络 表示 的 是 位 于 佛罗里达 州 的 圣 马 可 国家 野生 动物 保护 区 的 生态 系统 。 
这 个 网 络 是 由 Robert R. Christian 和 Joseph J. Luczovich 于 1999 年 建立 的 ， 参 见 他 们 的 文 
章 “Organizing and understanding a winter’s seagrass foodweb network through effective trophic 
levels”。 在 这 个 数据 集中 ， 如 果 物种 i 以 物种 j 为 食 ， 那么 市 点 i 就 有 一 条 指向 节点 j 的 边 。 
下 面 先 加 载 数 据 ， 用 NetworkX 来 读 取 : 


import networkx as nx 
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stmarks = nx.read_gml('data/stmarks.gml') 
然后 建立 与 图 对 应 的 稀疏 矩阵 。 因 为 矩阵 只 保存 数值 型 数据 ， 所 以 还 要 维护 一 个 与 矩阵 的 
行 / 列 对 应 的 名 称 列 表 。 


species = np.array(stmarks.nodes()) # 用 于 多 重 索 引 的 数组 
Adj = nx.to_scipy_sparse_matrix(stmarks，dtype=np.fLoat64) 





























根据 这 个 邻接 矩阵 ， 可 以 导出 转移 概率 矩阵 ， 其 中 每 条 边 都 禁 换 为 一 个 概率 ， 即 1 除 以 从 
这 个 物种 发 出 的 边 的 数量 。 在 食物 网 中 ， 或 许 更 应 该 称 其 为 午餐 概率 和 矩阵。 
因为 矩阵 中 的 物种 总 数 会 多 次 用 到 ， 所 以 用 变量 n 来 表示 它 。 
n = len(species) 
下 一 步 需要 出 度 矩 阵 ， 有 具体 说 是 一 个 对 角 和 矩阵 ， 其 对 角 线 上 是 每 个 节点 出 度 的 倒数 。 


np.seterr(divide='ignore') # 忽略 除 零 错误 
from scipy import sparse 








degrees = np.ravel(Adj.sum(axis=1)) 
Deginv = sparse.diags(1 / degrees).tocsr() 


Trans = (Deginv @ Adj) .T 


一 般 情 况 下 ，PageRank 分 数 就 是 转移 矩阵 的 第 一 个 特征 向 量 。 如 果 转 移 和 矩阵 为 M， 
PageRank 值 向 量 为 -， 则 有 : 

















r=Mr 


但 根据 np.seterr 函数 来 看 ， 事 情 没 这 么 简单 。PageRank 算法 仅 在 转移 矩阵 为 列 随 机 和 矩阵 
时 才 有 效 ， 即 矩阵 每 列 的 和 为 1。 此 外 ， 每 个 网 页 对 于 其 他 网 页 来 说 都 应 该 是 可 达 的 ， 即 
使 到 达 路 径 特别 长 也 是 如 此 。 
然而 在 食物 网 中 ， 这 会 引起 一 些 问 题 ， 这 是 因为 被 论文 作者 称 为 碎 局 (detritus， 实 际 上 是 
海 详 座 记 ) 的 食物 链 底层 实际 上 不 吃 任何 东西 (尽管 如 此 ， 它 还 是 参与 生命 循环 的 ) ， 因 
此 无 法 从 这 里 到 达 其 他 物种 。 

小 辛 巴 :“ 可 是 ， 和 爸爸， 难道 我 们 不 吃 羚羊 吗 ? ” 

木 法 沙 :“ 我 们 吃 ， 辛 巴 ， 但 让 我 解释 一 下 。 我 们 死 了 以 后 ， 尸 体 就 会 变 成 青草 ; 

羚羊 就 会 来 吃 青 草 。 我 们 就 是 这 样 互相 连接 ， 共 同 存 在 于 这 个 巨大 的 生命 轮回 

之 中 2” 



































一 一 《狮子 王 》 


PageRank 用 “阻尼 系数 ”来 处 理 这 种 情况 ， 通 常 它 的 值 是 0.85。 这 意味 着 ， 在 85% 的 时 
间 内 ， 算 法 会 随机 地 沿 着 链接 浏览 网 页 ， 但 在 其 余 15% 的 时 间 内 ， 它 会 随机 地 跳 到 任意 网 
页 。 似 乎 每 个 网 页 都 有 一 个 到 所 有 其 他 网 页 的 低 概率 链接 。 以 食物 网 为 例 ， 就 是 是 在 极其 
罕见 的 情况 下 会 吃 效 鱼 。 这 似乎 不 合 和 常理 ， 但 请 相信 我 们 ， 这 真 的 就 是 生命 轮回 的 数学 表 
示 。 我 们 将 阻尼 系数 设 为 0.85， 但 实际 上 这 个 具体 数值 对 我 们 的 分 析 不 太 重 要 : 阻尼 系数 
的 较 大 取 值 范围 ， 分 析 结 果 都 很 接近 。 

如 果 阻 尼 系 数 为 4， 那么 修正 后 的 PageRank 公式 是 : 


l-d 


n 



























































r=dMr+ 1 
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(IT_ dDr= 1 
n 
可 以 用 scipy.sparse.linalg 中 的 spsolve 直接 解 这 个 方程 。 然 而 ， 根 据 一 个 线性 代数 问题 
的 结构 和 规模 ， 使 用 可 迭代 求解 程序 会 更 有 效率 。 可 以 查阅 sicpy.sparse.linalg 的 文档 
来 获取 关于 这 个 问题 的 更 多 信息 。 


from scipy.sparse.linalg import spsolve 





damping = 0.85 
beta = 1 - damping 


I = sparse.eye(n，format='csc') # 和 Trans 相同 的 稀 玻 格式 


pagerank = spsolve(I - damping * Trans， 
np.full(n, beta / n)) 


现在 我 们 就 得 到 了 圣 马 可 食物 网 中 的 “食物 排名 ”| 
那么 某 个 物种 的 食物 排名 和 以 它 为 食 的 其 他 物种 数量 是 什么 关系 呢 ? 


def pagerank_plot(in degrees, pageranks, names, *, 
annotations=[], **figkwargs): 
"""PLot node pagerank against in-degree, with hand-picked node names. 




















fig, ax = plt.subplots(**figkwargs) 
ax.scatter(in degrees, pageranks, c=[0.835, 0.369, 0], lw=0) 
for name, indeg, pr in zip(names, in_degrees, pageranks): 
if name in annotations: 
text = ax.text(indeg + 0.1, pr, name) 


ax.set ylim(0, np.max(pageranks) * 1.1) 
ax.set xlim(-1, np.max(in_ degrees) * 1.1) 
ax.set_ylabel('PageRank') 

ax.set xlabel('In-degree') 


接 下 来 画 出 图 形 。 在 写 这 段 内 容 前 ， 我 们 对 数据 集 进行 了 一 些 探索 ， 对 图 形 中 一 些 有 趣 的 
节点 做 了 预 标记 〈 见 下 图 ) 。 








interesting = ['detritus', 'phytoplankton', 'benthic algae', 'micro-epiphytes', 
'microfauna', 'zooplankton', 'predatory shrimps', 'meiofauna', 
'gulls'] 

in_degrees = np.ravel(Adj.sum(axis=0)) 

pagerank_plot(in_ degrees, pagerank, species, annotations=interesting) 
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从 上 图 来 看 ， 海 详 淤 泥 ( 碎 居 ，detritus) 是 生态 系统 中 最 重要 的 元 素 ， 不论 是 从 以 它 





为 食 的 物种 数量 (15) 来 看 ， 还 是 从 PageRank (>0.003) 来 看 。 但 第 二 重要 的 元 素 不 
是 供养 了 13 个 物种 的 海底 澡 类 (benthic algae)， 而 是 只 供养 了 7 个 物种 的 浮游 植物 
(phytoplankton) ! 这 是 因为 其 他 重要 的 物种 以 浮游 植物 为 食 。 我 们 在 图 的 左下 角 看 到 了 
海鸥 (gulls)， 现 在 可 以 确认 它 对 生态 系统 无 足 轻重 。 那 些 丑 恶 的 肉食 性 是 类 (predatory 
shrimps， 我 们 可 不 是 在 胡 编 乱 造 ) 和 译 游 植物 支持 的 物种 数目 相同 ， 但 它们 不 是 必 不 可 少 
的 物种 ， 因 此 最 终 的 食物 排名 非常 低 。 


Allesina 和 Pascual 进一步 用 模型 研究 了 物种 灭绝 对 生态 系统 的 影响 ， 这 里 就 不 再 深入 讨论 
了 。 他 们 发 现 ， 在 预测 生态 系统 重要 性 方面 ，PageRank 的 效果 要 比 入 度 更 好 。 


结束 本 章 前 ， 我 们 要 说 明 一 下 ， 可 以 使 用 几 种 不 同 的 方法 来 计算 PageRank。 称 为 震 法 
(power method) 的 一 种 方法 可 以 与 上 面 介绍 的 方法 互补 ， 它 名 副 其 实 ， 很 强大 ! 这 种 方法 
源 于 Perron-Frobenius 定理 ， 该 定理 的 一 部 分 证 明了 1 是 随机 和 矩阵 的 一 个 特征 值 ， 而 且 是 
最 大 的 特征 值 。( 对 应 的 特征 向 量 就 是 PageRank 向 量 。) 其 中 的 含义 是 ， 每 当 用 M 乘 以 任 
意 一 个 向 量 ， 它 指向 主 特征 向 量 的 成 分 是 不 变 的 ， 而 其 他 成 分 会 被 一 个 可 乘 因 子 缩减 。 结 
果 就 是 ， 如 果 用 M 反复 地 乘 以 一 个 随机 初始 向 量 ， 最 终 会 得 到 PageRank 向量 ! 


SciPy 可 以 通过 其 稀 足 矩阵 模块 使 这 个 过 程 非常 有 效 。 


def power(Trans, damping=0.85, max_iter=10**5): 
n = Trans.shape[0] 
rog = np.full(n, 1/n) 
r=r0 
for _iter_num in range(max_iter): 
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rnext = damping * Trans @ rr + (1 - damping) / n 
if np.allclose(rnext, r): 
break 
r = rnext 
return r 


6.4.1 练习 : 处 理 悬 挂 节 点 

注意 ， 以 上 选 代 中 的 Trans 不 是 列 随 机 的 ， 因 此 向 量 在 每 次 迭代 中 都 会 缩减 。 为 了 使 矩 
阵 是 随机 的 ， 我 们 必须 把 每 个 0 列 替换 为 都 是 1m 的 列 。 这 样 做 更 容易 计算 选 代 ， 但 代价 
过 大 。 如 何 修改 以 上 代码 以 确保 7 总 是 概率 向 量 呢 ? 

6.4.2 练习: 不 同 特征 向 量 方法 的 等 价 性 

验证 一 下 ， 这 3 各 方法 会 给 出 同样 的 节点 排名 。nunpy.corrcoef 将 是 一 个 有 用 的 函数 。 
6.5 ”结束语 


线性 代数 是 一 个 极其 宽广 的 领域 ， 区 区 一 章 的 篇 幅 难以 介绍 详尽 ， 但 本 章 可 以 让 你 一 宪 其 
强大 威力 ， 并 了 解 如 何 通过 Python、NumPy 和 SciPy 使 用 线性 代数 写 出 优雅 的 算法 。 
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“有 什么 新 鲜 事 儿 ? ”这 是 一 个 人 们 最 感 兴趣 的 问题 ， 但 是 也 最 不 着 边际 ， 可 以 


没完 没 了 地 问 下 去 。 如 果 认 真 探讨 它 的 答案 ， 所 得 的 只 不 过 是 一 堆 琐碎 的 跟风 事 
物 ， 这 些 都 是 将 来 的 淤泥 。 我 宁可 问 这 样 的 问题 :“ 什 么 是 最 好 的 ? ”这 个 问题 


能 加 深 河 道 而 非 拓宽 ， 这 个 问题 的 答案 可 以 将 淤泥 冲刷 到 河流 下 游 。 





罗伯特 .M. 波 西 格 ,《 祥 与 摩托 车 维修 艺术 》 


往 墙 上 挂 一 幅 画 ， 有 时 很 难 挂 正 。 你 调整 了 一 下 ， 退 后 检查 画 是 否 水 平 ， 然 后 重复 这 些 操 














作 。 这 就 是 优化 的 过 程 :不 断 改 变 画 的 角度 ， 直 到 满足 需求 ， 即 与 地 平 线 成 0 度 角 。 


用 数学 语言 表示 的 话 ， 我 们 的 需求 称 为 “损失 阔 数 ”"， 画 与 地 平 线 之 间 的 角度 称 为 
数 ”。 在 典型 的 优化 问题 中 ， 我 们 不 断 修改 参数 ， 直 到 损失 函数 最 小 化 。 








“ 参 


举例 来 说 ，ftx) = (x - 3) 是 平移 了 的 抛物 线 ， 我 们 要 找 出 使 这 个 损失 函数 最 小 化 的 x 值 。 


我 们 知道 ， 这 个 带 有 参数 x 的 函数 在 x 为 3 时 取 最 小 值 ， 因 为 可 以 先 求 出 它 的 导数 ， 
导数 为 0， 就 可 以 得 到 2C -3)=0 ( 即 x=3)。 





再 设 


但 是 ， 如 果 这 个 函数 更 加 复杂 比如， 函数 表达 式 有 很 多 项 、 有 多 重 零 导 数 点 、 包 含 非 线 


性 ,或 者 依赖 多 个 变量 )， 那 么 人 工 计算 就 会 非常 困难 。 
你 可 以 认为 损失 函数 表示 一 片 土地 ， 而 我 们 要 找 出 其 最 低 点 。 这 种 类 比 立 刻 指出 了 问 





题 的 


难点 : 如 果 身 处 某 个 山谷 中 ， 四 周 都 是 高 山 ， 那 么 如 何 才能 知道 我 们 是 否 处 于 最 低 的 山谷 





中 ,或 者 说 ， 是 不 是 因为 这 个 山谷 被 高 山 环绕 ， 所 以 只 是 看 上 去 很 低 ? 用 优化 领域 的 


语言 


来 说 ， 就 是 如 何 才能 知道 是 否 陷入 了 局 部 最 小 值 ? 多数 优化 方法 都 试图 解决 这 个 问题 。 


























注 1: 优化 算法 用 各 种 各 样 的 方法 解决 这 个 问题 ， 最 常用 的 两 种 方法 是 线 搜索 (line search) 和 信赖 域 
T 











出 同样 的 努力 。 使 用 信赖 域 方法 时 ， 先 朝 着 一 个 预期 能 得 到 最 小 值 的 方向 移动 ， 如 果真 如 预期 丸 
近 了 最 小 值 , 那么 就 提高 置信 度 , 重复 前 面 的 过 程 ; 如 果 没 有 , 则 降低 置信 度 , 搜索 一 个 更 广泛 的 














(trust 


cgion)。 使 用 线 搜索 方法 时 ， 先 设法 沿 着 一 个 特定 维度 找到 损失 函数 的 最 小 值 ， 继 而 在 其 他 维度 上 做 


bp 样 接 
区 域 。 
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可 以 选择 的 优化 方法 有 很 多 种 ( 见 





法 留 给 读者 去 发 现 、 学 习 。 




















图 7-1 给 出 了 SciPy 中 现 有 的 全 部 方法 ， 我 们 将 使 用 其 中 一 些 方法 ， 其 余 方 


到 7-1)。 你 可 以 选择 损失 函数 的 输入 是 标量 还 是 向 量 


( 即 需 要 优化 的 是 一 个 参数 还 是 多 个 参数 )。 有 些 方法 需要 给 定 损 失 函 数 的 梯度 ， 有 些 方 法 
会 自动 估计 梯度 。 有 些 方法 只 在 给 定 的 区 域内 搜索 参数 (约束 优化 )， 有 些 方 法 则 搜索 整 
个 参数 空间 。 
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图 7-1: 在 Rosenbrock 函数 ( 顶 图 ) 上 使 用 不 同 优化 算法 的 优化 路 径 比 较 。Powell 方法 在 梯度 下 降 
前 沿 着 第 一 个 维度 进行 线 搜索 。 另 一 方面 ， 共 思 梯 度 法 从 起 点 执行 梯度 下 降 


7.1 





SciPy 优 化 模块 : sicpy .optimize 


本 章 余 下 内 容 将 用 SciPy 的 optimize 模块 来 对 齐 两 张 图 像 。 


图 像 对 齐 (或 称 图 像 配 准 ) 的 





应 用 包括 全 景 拼接 、 组 合 脑 扫描 、 超 分 辩 率 成 像 ， 在 天 文学 应 用 中 ， 还 有 通过 组 合 多 次 曝 
光 结 果 进 行 的 目标 降 噪 技术 。 


和 往常 一 样 ， 先 设置 绘图 环境 。 








# 使 图 








形 显示 在 文本 中 ， 定 制 给 





%matplotlib inline 
import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 








区 | 








风格 











先 从 最 简单 的 问题 开始 : 有 两 张 图 片 ， 其 中 一 张 相 对 于 另 一 张 有 一 定 的 平移 ， 我 们 希望 通 
过 平移 找 回 最 好 的 图 像 对 齐 效果 。 

我 们 的 优化 函数 会 “抖动 ”其 中 一 张 图 片 ， 看 看 沿 着 一 个 方向 或 男 一 个 方向 抖动 图 片 是 否 
会 减少 二 者 的 差异 。 不 断 重复 这 个 操作 就 能 设法 找到 正确 的 对 齐 。 


示例 : 计算 最 优 图 片 平移 

你 应 该 还 记得 第 3 章 中 提 过 的 宇航 员 艾 琳 . 柯林斯 ， 我们 先 将 这 张 图 片 向 右 平移 50 个 像 
素 ， 然 后 再 与 原始 图 片 比较 ， 直 到 找 出 与 原始 图 片 匹配 得 最 好 的 平移 。 显 然 ， 这么 做 有 点 
入， 因为 我 们 知道 原来 的 位 置 ， 但 这 样 就 可 以 知道 真实 结果 ， 以 检查 算法 的 效果 。 以 下 是 
原始 图 片 和 平移 后 的 图 片 。 


from skimage import data, color 
from scipy import ndimage as ndi 





















































astronaut = color.rgb2gray(data.astronaut()) 
shifted = ndi.shift(astronaut, (0, 50)) 


fig, axes = plt.subplots(nrows=1, ncols=2) 
axes[0].imshow(astronaut) 
axes[0].set_title('Original') 
axes[1].imshow(shifted) 
axes[1].set_title('Shifted'); 








0 200 400 0 200 400 











要 想 使 用 优化 算法 来 完成 这 项 任务 ， 需 要 定义 “ 相 异 度 ”， 即 损失 函数 。 定 义 相 异 度 的 最 
简 方法 是 计算 二 者 间 差 的 平方 的 均值 ， 通 常 称 为 均 方 误差 (MSE，mean squared error)。 


import numpy as np 


def mse(arr1，arr2): 
"""Compute the mean squared error between two arrays.""" 
return np.mean((arri1 - arr2)**2) 
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当 图 片 完美 对 齐 时 ， 这 个 函数 会 返回 0， 否 则 会 返回 一 个 大 于 0 的 值 。 可 以 通过 这 个 损失 
国 数 来 检查 两 张 图 片 是 否 对 齐 。 


ncol = astronaut.shape[1] 





# 生成 一 个 数列 ， 前 后 长 度 都 是 列 长 度 的 99%， 每 个 百分点 为 一 个 值 
shifts = np.Linspace(-0.9 * ncol, 0.9 * ncol, 181) 
mse_costs = [] 





for shift in shifts: 
shifted back = ndi.shift(shifted, (0, shift)) 
mse_costs.append(mse(astronaut, shifted_ back)) 


fig, ax = plt.subplots() 
ax.plot(shifts, mse_costs) 
ax.set_xlabel('Shift') 
ax.set_ylabel('MSE'); 
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定义 损失 函数 后 ， 可 以 用 scipy.optimize.minimize 国 数 来 搜索 最 优 参数 。 
from scipy import optimize 
def astronaut_shift _ error(shift, image): 
corrected = ndi.shift(image, (0, shift)) 


return mse(astronaut, corrected) 


res = optimize.minimize(astronaut_shift_error, 0, args=(shifted,), 
method='Powell') 


print(f'The optimal shift for correction is: {res.x}') 
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我 们 下 


The optimal shift for correction is: 

















效果 不 错 ! 我 们 将 图 片 平 移 了 50 个 像素 ， 
函数 为 我 们 找到 了 正确 的 平移 量 


证 明 ， 虽 然 这 是 一 个 非常 容 


minimize 





事实 
有 时 


MSE 成 对 





剧 不 足 ， 败 习 





事 有 余 。 


过 MSE 这 


-49.99997565757551 


个 指标 ，SciPy 的 optimize. 





(-5 > 以 便 将 区 
易 的 优化 问题 ， 但 可 能 遇 到 














片 移 回 初始 状态 。 





图 像 对 齐 中 的 一 种 主要 难题 


和 














加 











了 来 看 一 个 图 像 平 移 问 题 ， 这 次 从 未 经 修改 的 


ncol = astronaut.shape[1] 


# 生成 一 个 数列 ， 前 后 长 度 都 是 列 长 度 的 90%， 每 个 百分点 为 一 个 值 
shifts = np.linspace(-0.9 * ncol, 0.9 * ncol, 181) 
mse_costs = [] 


个 











图 像 开始 。 








for shift in shifts: 
shifted1 = ndi.shift(astronaut, (0, shift)) 
mse_costs.append(mse(astronaut, shifted1)) 


fig, ax = plt.subplots() 
ax.plot(shifts, mse_costs) 
ax.set xlabel('Shift') 
ax.set_ylabel('MSE'); 
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从 0 平移 开始 ， 
素 附近 才 开 始 减少 ，; 
然后 又 开始 上 升 。 这 就 是 局 部 最 小 值 。 
以 如 果 向 某 个 方向 移动 可 以 改善 损失 国 数 时 ， 即 使 这 个 方向 是 “错误 的 ”， 


看 看 逐渐 向 负 方向 平移 时 MSE 的 变化 : 它 一 直 增 加 ， 直 至 平移 到 -300 像 
虽然 很 轻微 ， 但 毕竟 在 减少 。MSE 在 -400 像素 附近 降 至 一 个 低 点 ， 
因为 优化 方法 只 能 获取 损失 函数 “附近 的 ” 值 ， 所 


minimize 过 程 
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还 是 会 不 顾 一 切 地 向 这 个 方向 移动 。 因 此 ， 如 果 从 平移 了 -340 像素 的 图 像 开始 的 话 : 
shifted2 = ndi.shift(astronaut, (0, -340)) 
minimize 函数 会 继续 将 图 像 平 移 约 40 像素 ， 而 不 是 回 到 原始 图 像 。 


res = optimize.minimize(astronaut_shift_error, 0, args=(shifted2,), 
method='Powell') 

















器 

















print(f'The optimal shift for correction is {res.x}') 
The optimal shift for correction is -38.51778619397471 


这 个 问题 的 一 般 解 决 方案 是 对 图 像 进行 平 请 和 向 下 缩放 ， 这 些 操作 对 目标 函数 也 有 平滑 效 
果 。 对 图 像 使 用 高 斯 滤波 器 进行 平滑 后 ， 再 用 同样 的 方法 绘制 出 图 形 。 


from skimage import filters 
































astronaut_smooth = filters.gaussian(astronaut, sigma=20) 


mse_costs_smooth = [] 

shifts = np.linspace(-0.9 * ncol, 0.9 * ncol, 181) 

for shift in shifts: 
shifted3 = ndi.shift(astronaut_smooth, (0, shift)) 
mse_costs_smooth.append(mse(astronaut_smooth, shifted3)) 


fig, ax = plt.subplots() 

ax.plot(shifts, mse_costs, label='original') 
ax.plot(shifts, mse_costs_smooth, label='smoothed') 
ax.legend(loc=' lower right') 

ax.set_xlabel('Shift') 

ax.set_ylabel('MSE'); 
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如 你 所 见 ， 经 过 程度 很 高 的 平 请 后 ， 误 差 国 数 中 的 “漏斗 ” 变 得 更 宽 、 更 平 蛮 了 。 除 了 对 
国 数 本 身 进 行 平 请 ， 在 比较 图 像 前 对 其 进行 模糊 处 理 也 可 以 达到 同样 的 效果 。 因 此 ， 现 代 
的 图 像 对 齐 软件 使 用 一 种 称 为 高 斯 金字 塔 的 方法 ， 这 种 方法 可 以 得 到 一 组 分 辩 率 逐渐 降低 
的 图 像 版 本 。 我 们 先 对 齐 低 分 辩 率 (更 模糊 的 ) 图 像 ， 得 到 一 种 近似 的 对 齐 ， 然 后 再 用 更 
清晰 的 图 像 逐 渐 改 善 对 齐 结果 。 
def downsample2x(image): 
offsets = [((s + 1) % 2) / 2 for s in image.shape] 
slices = [slice(offset, end, 2) 
for offset, end in zip(offsets, image.shape)] 
coords = np.mgrid[slices] 
return ndi.map_coordinates(image, coords, order=1) 



































def gaussian_ pyramid(image, levels=6): 
"""Make a Gaussian image pyramid. 


Parameters 
image : array of float 
The input image. 
max_layer : int, optional 
The number of levels in the pyramid. 


Returns 

pyramid : iterator of array of float 
An iterator of Gaussian pyramid levels, starting with the top 
(lowest resolution) level. 


pyramid = [image] 


for level in range(levels - 1): 
blurred = ndi.gaussian_ filter(image, sigma=2/3) 
image = downsample2x(image) 
pyramid.append(image) 


return reversed(pyramid) 
现在 看 看 这 个 金字 塔 的 一 维 对 齐 效 果 。 


shifts = np.linspace(-0.9 * ncoL，0.9 * ncol, 181) 
nlevels = 8 
costs = np.empty((nlevels, len(shifts)), dtype=float) 
astronaut_pyramid = list(gaussian pyramid(astronaut, levels=nlevels)) 
for col, shift in enumerate(shifts): 

shifted = ndi.shift(astronaut, (0, shift)) 

shifted_pyramid = gaussian pyramid(shifted, levels=nlevels) 

for row, image in enumerate(shifted_pyramid): 

costs[row, col] = mse(astronaut pyramid[row], image) 


fig, ax = plt.subplots() 
for level, cost in enumerate(costs): 

ax.plot(shifts, cost, label='Level %d' % (nlevels - level)) 
ax. legend(loc=' lower right', frameon=True, framealpha=0.9) 
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ax.set_xlabel('Shift') 
ax.set_ylabel('MSE'); 


如 你 所 见 ， 金 字 塔 的 最 高 级 在 约 -325 像素 处 的 隆起 消失 了 。 因 此 ， 可 以 在 这 一 级 上 得 到 
一 个 近似 的 对 齐 结果 ， 然 后 再 用 较 低 级 别 改善 对 齐 结果 ( 见 图 7-2)。 











0.25 NN PP 
N fy 
= Dy 
zd 
\ A 

加 41 \ A 一 一 Level8 
| 一 一 Level7 
0.10 一 一 Level6 
一 一 Level 5 
Level 4 
0.05 一 一 Level 3 
一 一 Level 2 
0.00 一 一 Level 1 





一 400 一 200 0 200 400 
Shift 











7-2: 高 斯 金字 塔 各 级 别 上 的 平移 均 方 误差 


7.2 ”用 optimize 进 行 图 像 配 准 


接 下 来 我 们 将 这 个 优化 过 程 自动 化 ， 并 用 3 个 参数 实现 “真正 的 ”对 齐 ， 这 3 个 参数 是 旋 
转 、 行 维度 上 的 翻译 和 列 维度 上 的 翻译 。 这 种 操作 称 为 “刚性 配 准 ”， 因 为 不 涉及 任何 图 
像 变 形 操作 (缩放 、 扭 曲 或 拉 伸 )。 目 标 图 像 被 看 作 固体 ， 可 以 四 处 移动 (包括 旋转 )， 直 
至 找到 一 个 匹配 。 

为 了 简化 代码 ， 我 们 将 用 scikit-image 中 的 transforn 模块 来 计算 图 像 的 平移 和 旋转 。 
SciPy 的 optimize 模块 要 求 输入 是 参数 向 量 ， 我 们 先 建立 一 个 国 数 ， 它 能 接受 这 种 向 量 并 
用 正确 的 参数 生成 刚性 转换 。 


from skimage import transform 





























def make_rigid_ transform(param): 
r, tc, tr = param 
return transform.SimilarityTransform(rotation=r, 
translation=(tc, tr)) 
rotated = transform.rotate(astronaut, 45) 
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fig, axes = plt.subplots(nrows=1, ncols=2) 
axes[0].imshow(astronaut) 
axes[0].set_title('Original') 
axes[1].imshow(rotated) 

axes[1].set_ title('Rotated'); 


下 一 步 需 要 一 个 损失 函数 。 损 失 函 数 就 是 MSE， 但 SciPy 要 求 特定 格式 : 第 一 个 参数 必须 是 
用 来 优化 的 参数 向 量 。 其 后 的 参数 可 以 作为 元 组 通过 args 关键 字 来 传递 ， 但 必须 是 不 可 变 
的 ， 即 只 有 参数 向 量 能 进行 优化 。 在 我 们 的 示例 中 ， 参 数 向 量 就 是 旋转 角度 和 两 个 翻译 参数 。 
def cost mse(param, reference image, target image): 
transformation = make_rigid_ transform(param) 


transformed = transform.warp(target_image, transformation, order=3) 
return mse(reference_ image, transformed) 























最 后 ， 要 完成 对 齐 函 数 ， 它 在 高 斯 金字 塔 的 每 一 级 上 优化 损失 函数 ， 使 用 前 一 级 别 的 结果 
作为 下 一 级 别 的 起 始点 。 


def align(reference, target, cost=cost mse): 
nlevels =7 
pyramid_ref 
pyramid_tgt 


= gaussian_pyramid(reference, levels=nlevels) 
= gaussian_pyramid(target, levels=nlevels) 
levels = range(nlevels, 0, -1) 

image_pairs = zip(pyramid ref, pyramid tgt) 

p = np.zeros(3) 


for n, (ref, tgt) in zip(levels, image pairs): 
p[1:] *= 2 


res = optimize.minimize(cost, p, args=(ref, tgt), method='Powell') 
p= res.x 
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# 输出 当前 级 别 ， 每 次 覆盖 上 一 次 的 输出 (就 像 进度 条 ) 

print(f'LeveL: {n}, Angle: {np.rad2deg(res.x[0]) :.3}, ' 
f'offset: ({res.x[1] * 2**n :.3}, {res.x[2] * 2**n :.3}), 
f'Cost: {res.fun :.3}', end='\r') 


print('') # 对 齐 完成 后 开始 新 一 行 

return make_rigid transform(p) 
接 下 来 用 宇航 员 的 图 片 测试 一 下 。 将 这 张 图 片 旋转 60 度 ， 并 添加 一 些 噪声 。SciPy 能 找到 
正确 的 转换 形式 吗 ( 见 图 7-3) ? 


from skimage import util 








theta = 60 

rotated = transform.rotate(astronaut, theta) 

rotated = util.random noise(rotated, mode='gaussian', 
seed=0, mean=0, var=1le-3) 


tf = align(astronaut, rotated) 
corrected = transform.warp(rotated, tf, order=3) 


f, (ax0, ax1, ax2) = plt.subplots(1, 3) 

ax0.imshow(astronaut) 

ax0.set_title('Original') 

ax1.imshow(rotated) 

ax1.set_titLe('Rotated ' ) 

ax2.imshow(corrected) 

ax2.set_ title('Registered') 

for ax in (ax0, ax1, ax2): 
ax.axis('off') 


Level: 1, Angle: -60.0, Offset: (-1.87e+02, 6.98e+02), Cost: 0.0369 

















图 7-3: 用 优化 方法 对 齐 图 像 


现在 感觉 非常 好 ， 但 参数 的 选择 掩盖 了 优化 方法 的 难点 。 来 看 一 下 旋转 50 度 会 是 什么 情 
况 ， 这 与 初始 图 像 更 加 接近 


网 














性 








theta = 50 
rotated 
rotated 


transform.rotate(astronaut, theta) 
util.random_noise(rotated, mode='gaussian', 
seed=0, mean=0, var=1le-3) 


tf = align(astronaut, rotated) 
corrected = transform.warp(rotated, tf, order=3) 


f, (ax0, ax1, ax2) = plt.subplots(1, 3) 

ax0.imshow(astronaut) 

ax0.set_title('Original') 

ax1.imshow(rotated) 

axl.set_ title('Rotated') 

ax2.imshow(corrected) 

ax2.set_ title('Registered') 

for ax in (ax0, ax1, ax2): 
ax.axis('off') 


Level: 1, Angle: 0.414, Offset: (2.85, 38.4), Cost: 0.141 
虽然 这 次 从 与 初始 图 像 更 接近 的 地 方 开始 ， 但 图 像 并 没有 被 正确 地 旋转 过 来 ( 见 图 7-4)。 


这 是 因为 优化 技术 会 掉 入 局 部 最 小 值 的 陷阱 ， 我 们 已 经 在 前 面 平移 的 对 齐 过 程 中 见识 过 
了 ， 这 是 通 往 成 功 的 一 点 小 问题 ， 但 它们 对 初始 参数 非常 敏感 。 
































配 准 后 的 














图 7-4: 失败 的 优化 


7.3 用 basin hopping 算 法 避 开 局 部 最 小 值 


basin hopping 是 David Wales 和 Jonathan Doyle 在 1997 年 设计 的 一 种 算法 *?， 旨 在 避 开 局 部 
最 小 值 。 它 先 根据 某 些 初 始 参数 进行 优化 ， 然 后 从 找到 的 局 部 最 小 值 向 随机 方向 移动 ， 然 
后 再 进行 优化 。 通 过 为 这 些 随 机 移动 选择 合适 的 步 长， 这 种 算法 可 以 避 开 两 次 求 出 同一 个 
局 部 最 小 值 的 情况 ， 因 此 ， 与 基于 梯度 的 简单 优化 方法 相 比 ， 它 可 以 探索 更 大 范围 的 参数 


空间 。 





注 2: WALES D, DOYLE J. Global optimization by basin-hopping and the lowest energy structures of Lennard- 
Jones clusters containing up to 110 atoms [J]. Journal of Physical Chemistry, 1997, 101(28): 5111-5116. 
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留 给 读者 一 项 练习 : 在 对 齐 国 数 中 加 入 SciPy 对 basin hopping 算法 的 实现 。 因 为 本 章 后 面 
的 内 容 会 用 到 这 个 算法 ， 所 以 如 果 遇 到 困难 的 话 ， 你 完全 可 以 翻 看 一 下 本 书 附录 部 分 的 解 
决 方案 。 

练习 : 修改 对 齐 函 数 


修改 align 函数 以 使 用 sctpy.optimize.basinhoppitng， 它 有 避 开 局 部 最 小 值 的 明确 策略 。 




















basin hopping 算法 应 限制 于 高 斯 金字 塔 的 最 高 级 别 ， 因 为 它 是 一 个 速度 非常 
慢 的 优化 方法 。 如 果 用 于 整个 解决 方案 ， 那 么 运行 时 间 就 会 非常 长 。 








7.4 选择 正确 的 目标 函数 


现在 我 们 有 了 一 套 行 之 有 效 的 图 像 配 准 方法 ， 效 果 也 非常 好 。 但 事实 证 明 ， 我 们 只 解决 了 
最 简单 的 图 像 配 准 问题 ， 对 齐 模 态 相同 的 图 像 。 也 就 是 说 ， 我 们 期 待 基准 图 片 中 的 明亮 像 
素 匹 配 测 试图 片 中 的 明亮 像素 。 

接 下 来 研究 一 下 如 何 对 齐 同 一 图 像 中 的 不 同 颜色 通道 。 这 时 就 不 能 再 指望 这 些 通道 具有 同样 
的 模 态 了 。 这 个 任务 是 有 历史 意义 的 。1909 一 1915 年 ， 摄 影 家 Sergei Mikhailovich Prokudin- 
Gorskii 在 彩色 摄影 技术 发 明 前 就 拍摄 了 很 多 有 关 俄 罗斯 的 彩色 照片 。 他 的 做 法 是 对 同一 场 
景 拍摄 3 张 不 同 的 单 色 照 片 ， 每 次 拍摄 都 在 镜头 前 放 一 张 过 滤 不 同 颜 色 的 滤 色 片 。 

这 种 情况 下 ， 对 齐 明亮 像素 的 方法 (就 像 MSE 隐 式 实现 的 那样 ) 就 失效 了 。 以 下 示例 
是 圣 约翰 教 堂 污 迹 斑斑 的 3 张 玻 璃 窗 照 片 ， 来 自 美国 国会 图 书馆 Prokudin-Gorskii 作品 集 
( 见 图 7-5)。 


















































from skimage import io 

stained_glass = io.imread('data/00998v.jpg') / 255 # 使 用 [0，1] 范 围 内 的 浮 点 数 图 像 
fig, ax = plt.subplots(figsize=(4.8, 7)) 

ax.imshow(stained_glass) 

ax.axis('off'); 












































图 7-5: 一 张 Prokudin-Gorskii 的 摄影 底片 : 污 迹 斑斑 的 玻璃 窗 的 3 张 照片 ， 分 别 通过 3 张 不 同 的 滤 
色 片 拍摄 

观察 圣 约翰 的 袍 子 : 第 一 张 图 片 中 ， 它 看 上 去 漆黑 一 片 ， 第 二 张 图 片 中 却 是 灰色 的 ， 第 三 

张 图 片 中 竟然 是 亮 白色 ! 即使 完美 对 齐 ， 这 也 会 导致 可 怕 的 MSE 得 分 。 

接 下 来 看 看 能 做 些 什么 。 作 为 起 点 ， 我 们 将 这 张 底片 按照 成 分 通道 进行 分 割 。 
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nrows = stained_ glass.shape[0] 
step = nrows // 3 
channels = (stained_glass[:step], 
stained_glass[step:2*step], 
stained_glass[2*step:3*step]) 
channel_names = ['blue', 'green', 'red'] 
fig, axes = plt.subplots(1, 3) 
for ax, image, name in zip(axes, channels, channel_names): 
ax.imshow(image) 
ax.axis('off') 
ax.set title(name) 

















第 一 步 ， 我 们 将 3 张 图 片 伙 加 起 来 ， 检 验 一 下 是 否 需要 在 3 个 通道 之 间 调 整 对 齐 方 式 。 


blue, green, red = channels 
original = np.dstack((red, green, blue)) 


fig, ax = plt.subplots(figsize=(4.8, 4.8), tight_layout=True) 
ax.imshow(original) 
ax.axis('off'); 























从 图 中 物体 周围 的 彩色 “ 光 晕 ”可 以 看 出 ， 颜 色 接近 于 对 齐 ， 但 还 不 够 精确 。 就 像 对 齐 宇 
航 员 图 片 那 样 ， 我 们 试 着 用 MSE 来 对 齐 它们 。 我 们 将 绿色 通道 图 片 作为 基准 图 片 ， 让 蓝 
色 通 道 图 片 和 红色 通道 图 片 与 其 对 齐 。 

print('*** Aligning blue to green ***') 


tf = align(green, blue) 
cblue = transform.warp(blue, tf, order=3) 



































print('** Aligning red to green ***') 
tf = align(green, red) 
cred = transform.warp(red, tf, order=3) 


corrected = np.dstack((cred, green, cblue)) 
f, (ax0, ax1) = plt.subplots(1, 2) 
ax0.imshow(original) 
ax0.set_ title('Original') 
ax1.imshow(corrected) 
ax1.set_titLe('Corrected ' ) 
for ax in (ax0, ax1): 

ax.axis('off') 


xxx Aligning bLue to green *** 

Level: 1, Angle: -0.0474, Offset: (-0.867, 15.4), Cost: 0.0499 
** Aligning red to green *** 

Level: 1, Angle: 0.0339, Offset: (-0.269, -8.88), Cost: 0.0311 


对 齐 后 的 图 片 效 果 要 比 原始 图 片 好 一 些 ( 见 图 7-6)， 因 为 红色 通道 和 绿色 通道 正确 对 齐 
了 ， 这 也 许 要 归功 于 那 一 大 片 黄色 天 空 背景 。 但 蓝 色 通 道 还 没有 对 齐 ， 因 为 蓝 色 亮点 和 绿 
色 通 道 并 不 一 致 。 这 说 明 ， 当 通道 并 未 对 齐 时 ，MSE 会 变 得 更 低 ， 因 此 蓝 色 区 域 会 与 一 些 
明亮 的 绿色 区 域 重 和 登 。 























原始 的 














图 7-6: 基于 MSE 的 对 齐 可 以 减少 但 不 能 消除 色 旱 


我 们 使 用 另 一 个 称 为 标准 化 互信 息 (NMI，normalized mutual information) 的 指标 ， 它 度 
量 的 是 不 同 图 片 的 不 同 亮度 带 之 间 的 相关 性 。 当 图 片 完美 对 齐 时 ， 颜 色 一 致 的 任何 物体 都 
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会 在 不 同 成 分 通道 的 遮 罩 之 间 产 生 很 大 的 相关 性 ， 并 相应 产生 一 个 很 大 的 NMI 值 。 从 某 
种 意义 上 说 ，NMI 测量 的 是 ， 在 给 定 一 张 图 片 像素 值 的 情况 下 预测 另 一 张 图 片 中 相应 像素 
值 的 容易 程度 。 其 定义 如 下 : ” 





























H(X)+H(Y) 


Ce 

















其 中 HQ) 是 XX 的 炉 ，HCX, 是 人 和 了 的 联合 炉 。 分 子 表示 两 张 图 片 各 自 的 炉 ， 分母 表示 
它们 合 在 一 起 时 总 的 炉 ， 它 的 值 在 1 (最 大 程度 对 齐 ) 和 2 (最 小 程度 对 齐 ) 之 间 。 ”参见 
第 5 章 。 

Python 代码 如 下 所 示 。 


from scipy.stats import entropy 











def normalized mutual_information(A, B): 
"""Compute the normalized mutual information. 


The normalized mutual information is given by: 


H(A) + H(B) 


where H(X) is the entropy ”、- sum(x log x) for x in xX... 


Parameters 
A, B : ndarray 
Images to be registered. 


Returns 

nmi : float 
The normalized mutual information between the two arrays, computed at a 
granularity of 100 bins per axis (10,000 bins total). 

hist, bin edges = np.histogramdd([np.ravel(A), np.ravel(B)], bins=100) 

hist /= np.sum(hist) 


H_A = entropy(np.sum(hist, axis=0)) 
H_B = entropy(np.sum(hist, axis=1)) 
H_AB = entropy(np.ravel(hist)) 


return (HA + HB) / H_AB 





注 3: STUDHOLME C, HLL D L G, HAWKES D J. An overlap invariant entropy measure of 3D medical image 
alignment [可 . Pattern Recognition, 1999, 32(1): 71-86. 

注 4: 另 一 种 禾 有 介 事 的 简单 解释 就 是 ， 可 以 根据 要 考虑 的 量 的 直方 图 来 计算 粮 。 如 果 针 = 了 Y， 那 么 联合 直 
方 图 (%, 就 是 对 角 阵 ， 而 且 这 个 对 角 阵 的 炉 和 XX 或 了 的 炳 都 相同 。 因 此 ，H() = H(7) = HY, 也 ， 
1%, Y) =2。 
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和 前 面 定义 cost_mse 一 样 ， 我 们 需要 定义 一 个 损失 函数 以 进行 优化 。 


def cost_nmi(param，reference_image，target_image) : 
transformation = make_rigid_transform(param) 
transformed = transform.warp(target_image, transformation, order=3) 
return -normalized mutual_information(reference image, transformed) 


最 后 ， 通 过 带 有 basin hopping 优化 方法 的 对 齐 函 数 来 优化 损失 函数 ( 见 图 7-7)。 


print('*** Aligning blue to green ***') 
tf = align(green, blue, cost=cost_nmi) 
cbLue = transform.warp(blue, tf, order=3) 





print('** Aligning red to green ***') 
tf = align(green, red, cost=cost_nNmi) 
cred = transform.warp(red, tf, order=3) 


corrected = np.dstack((cred, green, cblue)) 

fig, ax = plt.subplots(figsize=(4.8, 4.8), tight_layout=True) 
ax.imshow(corrected) 

ax.axis('off') 


xxx Aligning bLue to green *** 

Level: 1, Angle: 0.444, Offset: (6.07, 0.354), Cost: -1.08 

** Aligning red to green *** 

Level: 1, Angle: 0.000657, Offset: (-0.635, -7.67), Cost: -1.11 


(-0.5, 393.5, 340.5, -0.5) 

















图 7-7: 用 标准 化 互信 息 对 齐 Prokudin-Gorskii 图 片 中 的 通道 
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多 么 绚丽 的 一 张 照片 ! 这 可 是 彩色 照相 技术 发 明 前 创造 出 的 人 工作 品 ! 看 看 上 帝 那 像 珍 珠 
一 样 的 白色 锦 袍 、 约 翰 的 白 胡 子 以 及 伯 罗 哥 罗 〈Prochorus， 约 翰 的 书童 ) 手中 的 白色 书 
页 ， 这 些 都 是 无 法 在 基于 MSE 的 对 齐 中 看 到 的 ， 但 使 用 NMI 后， 它们 显得 棚 棚 如 生 。 连 
前 面 的 烛台 看 上 去 都 那么 金正 辉煌 。 

本 章 介绍 了 函数 优化 的 两 个 核心 思想 : 理解 局 部 最 小 值 以 及 如 何 避 开 它 们 ， 选 择 正 确 的 函 
数 优化 以 达到 特定 目标 。 如 果 能 解决 这 些 问题 ， 你 就 可 以 优化 很 多 科学 问题 了 ! 












































第 8 和 章 


用 Toolz 在 笔记 本 电脑 上 玩 转 大 数据 





格 蕾丝 :“ 一 把 刀 ? 那 家 伙 有 12 英尺 高 ! ” 
杰克 : “7 英尺 。 嘿 ， 别 担心 ， 我 能 摘 定 他 。 
一 一 杰克 ' 波 顿 , 《妖魔 大 阅 唐人 街 》 


流 (streaming) 不 是 SciPy 本 身 的 功能 ， 而 是 一 种 可 以 让 我 们 高 效 处 理 大 数据 集 的 方法 ， 
比如 科学 研究 中 常见 的 大 数据 集 。Python 语言 中 有 一 些 适 合流 数据 处 理 的 基本 功能 ， 这 些 
功能 和 Matt Rocklin 开发 的 Toolz 库 相 结合 ， 可 以 写 出 非常 优雅 、 简 洛 的 代码 ， 并 且 极 其 
节省 内 存 。 本 章 将 介绍 如 何 应 用 流 的 思想 来 处 理 那些 超过 计算 机 内 存 的 大 规模 数据 集 。 
你 很 可 能 已 经 做 过 一 些 流 处 理 ， 但 也 许 没 有 从 这 些 方面 思考 过 流 。 最 简单 的 流 处 理 形式 就 
是 在 文件 的 行 之 间 迭 代 ， 不 用 把 整个 文件 读 入 内 存 ， 就 能 处 理 每 一 行 。 例 如 ， 以 下 代码 用 
一 个 循环 来 计算 每 行 的 均值 ， 并 对 其 进行 加 总 。 
import numpy as np 
with open('data/expr.tsv') as f: 
sum_of means = 0 
for line in f: 


sum_of_means += np.mean(np.fromstring(line, dtype=int, sep='\t')) 
print(sum_of_means) 













































































1463.0 


在 通过 行 处 理 就 能 解决 问题 的 情况 下 ， 这 种 策略 效果 良好 ， 但 当代 码 变 得 更 加 复杂 时 ， 情 
况 很 快 就 会 失控 。 
在 流 处 理 程序 中 ， 一 个 函数 先 处 理 某 些 输入 数据 ， 并 返回 处 理 结果 。 然 后 ， 当 下 游 函 数 处 











注 1: 1 英尺 约 合 30.48 厘米 。 一 一 编者 注 
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理 这 个 结果 时 ， 这 个 函数 再 接受 一 些 数据 进行 处 理 ， 以 此 类 推 。 这 些 事情 都 是 同时 进行 
的 ! 如 何 保持 它们 井然 有 序 地 进行 呢 ? 


我 们 也 觉得 这 个 事情 很 难 ， 直 到 发 现 了 Toolz 库 ， 其 结构 使 得 流 处 理 程序 编写 起 来 特别 优 
雅 ， 因 此 本 书 必 须 用 一 章 的 篇 幅 来 介绍 它 。 
我 们 先 曾 明 “ 流 ”的 概念 ， 以 及 为 什么 要 使 用 流 。 假设 你 有 一 些 保存 在 文本 文件 中 的 数 
据 ， 你 想 计 算出 对 每 个 值 进行 log(x + 1) 运算 后 的 列 平均 值 。 通 常 的 做 法 是 先 用 NumPy 加 
载 这 些 数据 ， 再 对 整个 矩阵 中 的 值 进行 对 数 运算 ， 然 后 沿 着 第 一 个 轴 求 出 均值 。 

import numpy as np 

expr = np.loadtxt('data/expr.tsv') 


Logexpr = np.log(expr + 1) 
np.mean(logexpr, axis=0) 















































array([ 3.11797294, 2.48682887, 2.19580049, 2.36001866, 2.70124539， 
2.64721531, 2.43704834, 3.28539133,2.05363724, 2.37151577， 
3.85450782, 3.9488385 ，2.46680157，2.36334423，3.18381635 ， 
2.64438124, 2.62966516, 2.84790568, 2.61691451, 4.12513405]) 


这 可 以 奏效 ， 而 且 非 常 符合 我 们 已 经 得 心 应 手 的 输入 一 输出 计算 模型 。 但 这 样 做 非常 低 
效 ! 我 们 在 内 存 中 载 入 了 整个 矩阵 (1)， 然 后 对 每 个 元 素 加 1 复制 了 一 个 矩阵 (2)， 之 后 
为 了 计算 对 数 又 复制 了 一 个 矩阵 (3)， 最 后 才 将 这 个 矩阵 传 给 np.mean。 这 样 数据 数组 就 
有 了 3 个 实例 ， 实 际 上 这 种 计算 其 至 连 一 个 内 存 实例 都 不 需要 。 对 于 任何 一 种 “大 数据 ” 
操作 ， 这 种 方法 都 会 无 效 。 

Python 开发 者 意识 到 了 这 个 问题 ， 于 是 创建 了 yield 关键 字 ， 它 可 以 使 函数 先 处 理 “ 一 
份 ”数据 ， 将 结果 传递 给 下 面 的 进程 ， 待 完成 对 这 份 数 据 的 一 系列 处 理 后 ， 再 处 理 另 一 份 
em 国 数 将 控制 权 “ 移 交 ” 给 下 一 个 函数 ， 直 到 

续 的 数据 处 理 步 又 都 完成 后 ， 才 继续 处 理 接 下 来 的 数据 。 


8.1 用 yield 进 行 流 处 理 


以 上 所 说 的 控制 流 非常 难以 把 握 。Python 中 一 项 非常 好 的 功能 就 是 对 这 种 控制 复杂 性 进行 
了 抽象 ， 从 而 使 你 更 专注 于 功能 分 析 。 可 以 这 样 理解 : 如 果 一 个 国 数 在 正常 情况 下 接受 一 
个 列表 (数据 集合 ) 并 将 其 转换 ， 那 么 可 以 重 写 这 个 函数 ， 使 它 接受 一 个 流 ， 并 依次 对 流 
中 的 每 个 元 素 生成 一 个 结果 。 


以 下 示例 对 列表 中 的 每 个 元 素 取 对 数 ， 分 别 使 用 了 标 


def log_all_standard(input): 
output = [] 
for elem in input: 
output.append(np.log(elem)) 
return output 
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佳 的 数据 复制 方法 和 流 处 理 方法 。 











def log_all_streaming(input_stream): 
for elem in input_stream: 
yield np.log(elem) 





检查 两 种 方法 的 结果 是 否 一 致 。 
# 设 定 随机 数 种 子 ， 以 得 到 稳定 的 结果 


np.random.seed(seed=7) 
# 设置 输出 选项 ， 只 显示 3 位 有 效 数 字 
np.set_printoptions(precision=3, suppress=True) 








arr = np.random.rand(1000) + 0.5 
result_batch = sum(Log_aLL_standard(arr)) 
print('Batch result: ', result_batch) 
result_stream = sum(log_all_streaming(arr)) 
print('Stream result: ', result_stream) 


Batch result: -48.2409194561 
Stream result: -48.2409194561 


流 处 理 的 优点 是 ， 只 在 需要 时 才 处 理 流 中 的 元 素 ， 无 论 是 累计 求 和 、 写 入 磁盘 ， 还 是 其 他 
什么 操作 。 这 样 ， 当 输入 项 目 很 多 或 每 个 输入 项 很 大 (或 二 者 皆 有 ) 时 ， 可 以 节省 大 量 
内 存 。 以 下 是 引 自 Matthew Rocklin 的 博文 “Towards Out-of-core ND-Arrays Dask + 
Toolz = Bag” 中 的 一 段 话 ， 这 上 段 话 简明 扼要 地 解释 了 流 式 数据 分 析 的 好 处 : 

根据 我 的 有 限 经 验 ， 人 们 很 少 使 用 这 种 ( 流 ) 方法 ， 他 们 会 一 直 使 用 单线 程 的 驻 

留 内 存 的 Python 程序 ， 直 到 系统 崩溃 ， 然 后 就 去 购买 那些 费用 高 昂 的 大 数据 基 

础 设施 ， 比 如 Hadoop/Spark。 
的 确 ， 这 就 是 我 们 计算 生涯 的 真实 写照 。 但 是 ， 还 有 一 条 效果 超 乎 想象 的 中 间 道 路 。 在 某 
些 情况 下 ， 通 过 消除 多 核 通 信和 随机 访问 数据 库 的 开销 ， 它 的 速度 甚至 比 超级 计算 方法 还 
要 快 。( 例 如 ， 参 见 Frank McSherry 的 博文 “Bigger data; same laptop”， 他 在 笔记 本 电脑 上 
处 理 了 一 个 带 有 1280 亿 条 边 的 图 ， 速 度 比 使 用 超级 计算 机 上 的 图 数据 库 更 快 。) 
为 了 闸 释 清楚 流 处 理 风 格 函 数 的 控制 流 ， 有 必要 看 一 下 函数 的 详细 运行 信息 ， 其 中 包含 了 
每 次 操作 的 输出 消息 。 


import numpy as np 




































































def tsv_line to_array(line): 
lst = [float(elem) for elem in line.rstrip().split('\t')] 
return np.array(Lst) 


de 


下 


readtsv(filename): 
print('starting readtsv') 
with open(filename) as fin: 
for i, line in enumerate(fin) : 
print(f'reading Line {i}') 
yield tsv_line to array(line) 
print('finished readtsv') 


def addi(arrays_iter): 
print('starting adding 1') 
for i, arr in enumerate(arrays_iter): 
print(f'adding 1 to line {i}') 
yield arr + 1 
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print('finished adding 1') 


def log(arrays_iter): 
print('starting log') 
for i, arr in enumerate(arrays_iter): 
print(f'taking log of array {i}') 
yield np.log(arr) 
print('finished log') 


def running_mean(arrays_iter): 

print('starting running mean') 
for i, arr in enumerate(arrays_iter): 

if i == 0: 

mean = arr 

mean += (arr - mean) / (i + 1) 

print(f'adding line {i} to the running mean') 
print('returning mean') 
return mean 


来 看 一 下 在 一 个 小 示例 文件 上 的 运行 结果 。 


fin = 'data/expr.tsyv' 

print('Creating lines iterator') 
lines = readtsv(fin) 

print('Creating loglines iterator') 
LogLines = log(addi(lines)) 
print('Computing mean') 

mean = running_mean(loglines) 
print(f'the mean log-row is: {mean}') 


Creating lines iterator 

Creating loglines iterator 
Computing mean 

starting running mean 

starting log 

starting adding 1 

starting readtsv 

reading line 0 

adding 1 to line 0 

taking log of array 0 

adding line 0 to the running mean 
reading line 1 

adding 1 to line 1 

taking log of array 1 

adding line 1 to the running mean 
reading line 2 

adding 1 to line 2 

taking log of array 2 

adding line 2 to the running mean 
reading line 3 

adding 1 to line 3 

taking log of array 3 

adding line 3 to the running mean 
reading line 4 

adding 1 to line 4 
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taking Log 


of array 4 


adding line 4 to the running mean 

finished readtsv 

finished adding 1 

finished log 

returning mean 

the mean log-row is: [ 3.118 2.487 2.196 2.36 2.701 2.647 2.437 3.285 


3.855 3 
注意 以 下 事项 。 
。 创 





2.054 2.372 


.949 2.467 2.363 3.184 2.644 2.63 2.848 2.617 4.125] 


建行 和 对 数 行 的 迭代 器 时 ， 没 有 进行 任何 计算 。 这 是 因为 迭代 器 是 情 性 的 ， 它 们 直到 

















需要 一 个 结果 时 才 进 行 求 值 (或 消费 )。 
。 当 最 终 通过 调用 running_mean 触发 计算 时 ， 计 算 会 在 各 个 函数 之 间 来 回 切 换 ， 在 每 一 
行 上 执行 各 种 计算 ， 然 后 转 到 下 一 行 。 


8.2 引入 Toolz 流 库 


本 章 示 例 代 码 由 Matthew Rocklin 提供 。 只 需 几 行 代码 ， 就 可 以 在 一 台 笔 记 本 电脑 上 根据 
完整 的 果 蝇 基因 组 在 5 分 钟 内 建立 一 个 马尔 可 夫 模 型 。( 为 了 便于 下 游 处 理 ， 代 码 略 加 修 





改 。) Matthew 的 示例 使 用 的 是 人 类 基因 组 ， 但 笔记 本 电脑 速度 显然 不 够 快 ， 因 此 我 们 使 用 




















果 蝇 基因 组 〈 大 小 约 是 人 类 基因 组 的 1120)。 本 章 还 对 代码 做 了 一 点 增强 ， 使 其 可 以 从 压 














缩 数 据 开始 〈i 


E 会 将 未 压缩 的 数据 集 放 在 硬盘 上 呢 )。 这 种 修改 对 示例 代码 的 优雅 程度 几 











乎 没有 影响 。 


import toolz as tz 


from toolz 


import curried as < 


from glob import glob 
import itertools as it 


LDICT 
PDICT 


dict(zip('ACGTacgt', range(8))) 
{(a, b): (LDICT[a], LDICT[b]) 


for a, b in it.product(LDICT, LDICT)} 


def is_sequence(line): 
return not line.startswith('>') 


def is_nucleotide(letter): 
return Letter tn LDICT # 忽略 N 


@tz.curry 


def increment_ model(model, index): 
model[index] += 1 


def genome(file pattern): 


"""Stream a genome, letter by letter, from a list of FASTA filenames. 


return tz.pipe(file pattern, glob,，sorted, # 文件 名 


c.map(open)，## 行 
# 连接 所 有 文件 中 的 行 
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tz.concat, 

# 去 掉 每 个 序列 的 标题 
c.filter(is_sequence), 
# 连接 所 有 行 中 的 字符 
tz.concat, 


# 去 掉 换行 符 和 N 


c.filter(is_nucleotide)) 





def markov(seq) : 


"""Get a 1st-order Markov model from a _ sequence of nucLeotides . 


modeL = np.zeros((8，8)) 
tz.last(tz.pipel(seq, 


c.sliding window(2), # 每 个 连续 元 组 
c.map(PDICT. getitem _)， # 元 组 在 矩阵 中 的 位 置 
c.map(increment_model(model)))) # 和 矩阵 相应 元 素 加 1 














# 将 计数 转换 为 转移 概率 矩阵 
model /= np.sum(model, axis=1)[:, np.newaxis] 
return model 


可 以 用 以 下 代码 得 到 一 个 果 蝇 基因 组 中 重复 序列 的 马尔 可 夫 模 型 。 











%%timeit -r 1 -n 1 
dm = "data/dm6.fa' 


model = 


tz.pipe(dm, genome, c.take(10**7), markov) 








# 为 了 加 快速 度 ， 使 用 take， 只 在 前 1666 万 个 碱 基 上 运行 
# 如 果 你 可 以 等 5~16 分 钟 ， 那 么 可 以 去 掉 take 这 一 步 


1 Loop，average of 1: 24.3 s +- 0 ns per Loop (using standard deviation) 
这 个 示例 中 有 很 多 知识 点 ， 我 们 会 慢 慢 解释 。 本 章 末 尾 将 实际 运行 这 个 示例 。 
需要 注意 的 第 一 件 事 就 是 有 多 少 国 数 来 自 Toolz 库 。 举 例 来 说 ， 我 们 从 Toolz 中 使 用 了 


pipe、sliding_window、frequencies 和 一 个 map 国 数 的 柯 昌 
这 是 因为 ，Toolz 就 是 专门 为 了 利用 Python 的 欠 代 器 ， 二 




















先 从 ptpe 开始 。 这 个 函数 就 是 一 个 能 使 腻 套 函数 调用 更 易于 阅读 的 语法 糖 。 
在 处 理 和 迭代 器 时 会 使 用 得 越 来 越 普 遍 ， 所 以 非常 重要 。 


作为 一 个 简 和 








示例 ， 我 们 用 pipe 重 写 一 下 求 移动 平均 值 的 函数 。 


import toolz as tz 
filename = 'data/expr.tsv' 
mean = tz.pipe(fiLLename，Freadtsv，add1，Log，running_mean) 


# 这 种 写法 等 价 于 以 下 骨 大 ,函数 
# running_mean(log(addi(readtsv(filename)))) 


starting running mean 
starting log 

starting adding 1 
starting readtsv 


reading 


line 0 


adding 1 to line 0 
taking log of array 0 


有 化 版 本 (后面 会 有 更 多 介绍 )。 
使 流 操作 更 加 简单 而 开发 的 。 





因为 这 种 模式 
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adding line 0 to the running mean 
reading Line 1 

adding 1 to Line 1 

taking log of array 1 

adding line 1 to the running mean 
reading line 2 

adding 1 to line 2 

taking log of array 2 

adding line 2 to the running mean 
reading line 3 

adding 1 to line 3 

taking log of array 3 

adding line 3 to the running mean 
reading line 4 

adding 1 to line 4 

taking log of array 4 

adding line 4 to the running mean 
finished readtsv 

finished adding 1 

finished log 

returning mean 


原来 那 种 很 多 行 的 代码 或 乱七八糟 的 括号 ， 现 在 都 变 成 了 对 输入 数据 按 次 序 转换 的 清晰 描 
述 ， 这 就 容易 理解 多 了 ! 


与 最 初 的 NumPy 实现 相 比 ， 这 种 方法 还 有 一 个 优点 。 在 NumPy 实现 中 ， 如 有 果 数 据 规 模 增 
加 到 几 百 万 其 至 几 十 亿 行 ， 那 么 计算 机 很 难 将 所 有 数据 都 装 入 内 存 。 相 比 之 下 ， 这 种 方法 
每 次 只 从 磁盘 载 入 一 行 数据 ， 内 存 中 也 只 保留 一 行 数据 。 


8.3 k-mer 计 数 与 错误 修正 


你 可 能 想 回顾 一 下 第 1 章 和 第 2 章 中 关于 DNA 和 基因 组 的 知识 。 简 而 言 之 ， 基 因 信 息 
(也 就 是 你 的 身体 细胞 的 蓝本 ) 被 编码 为 基因 组 中 的 化 学 碱 基 序 列 。 这 些 序列 非常 非常 小 ， 
无 法 用 显微镜 查看 ， 也 不 能 读 取 。 你 也 无 法 读 取 长 串 序列 ， 因 为 累积 的 误差 会 使 结果 变 得 
无 法 使 用 。( 新 的 技术 正在 改变 这 种 情况 ， 但 这 里 只 关注 那些 短 的 可 读 序列 ， 这 是 现在 最 
常见 的 。) 好 在 我 们 的 每 个 细胞 中 都 有 基因 组 的 一 份 相 同 副本 ， 因 此 可 以 将 这 些 副 本 打 碎 
成 很 多 短 的 序列 〈 约 100 个 碱 基 那 么 长 )， 然 后 再 将 它们 组 装 起 来 ， 就 像 组 装 一 个 3000 万 
块 的 巨大 拼图 。 


组 装 之 前 ， 至 关 重 要 的 一 个 事情 就 是 read 修正 。 在 DNA 测序 过 程 中 ， 一 些 碱 基 被 错误 地 
读 取 了 ， 因 此 必须 将 其 修正 ， 否 则 就 会 搞 砸 组 装 过 程 。( 可 以 想象 一 下 拼图 时 碎片 形状 不 
吻合 的 情况 。) 

其 中 一 种 修正 策略 是 在 数据 集中 找 出 相似 的 read， 从 这 些 read 中 抽取 出 正确 信息 以 修正 错 
误 , 或 者 彻底 丢弃 那些 包含 错误 的 read。 

然而 ， 这 种 方法 非常 低 效 ， 因 为 找 出 相似 的 read 就 意味 着 要 将 每 个 read 都 和 其 他 read 比 
较 一 次 。 这 需要 VY 次 操作 ， 对 于 一 个 包含 3000 万 read 的 数据 集 来 说 ， 就 是 9x 10" 次 操 
作 ! (这 些 操作 的 开销 太 大 了 。) 
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还 有 另外 一 种 方法 。 根 据 Pavel Pevzner 等 人 的 研究 (参见 Pavel A. Pevzner、Haixu Tang 以 
及 Michael S. Waterman 的 论文 “An Eulerian path approach to DNA fragment assembly”)， 可 
以 将 read 打 碎 成 更 小 的 、 有 重合 的 kmer， 即 长 度 为 的 子 串 ， 它 们 可 以 保存 在 一 个 散 列 
表 (Python 中 的 字典 ) 中 。 这 样 做 的 好 处 很 多 ， 最 主要 的 是 不 用 计算 read 的 总 数 ， 这 个 
总 数 可 以 是 任意 大 的 值 。 于 是 ， 计 算 k-mer 的 总 数 就 可 以 了 ， 这 个 总 数 和 基因 组 本 身 一 样 
大 一 一 通常 比 read 总 数 小 一 两 个 数量 级 。 

如 果 我 们 选择 了 足够 大 的 上 值 ， 确 保 任何 大 mer 都 只 在 基因 组 中 出 现 一 次 ， 那 么 一 个 mer 
的 出 现 次 数 就 恰好 是 来 自 那 部 分 基因 组 的 read 数量 。 这 称 为 该 区 域 的 覆盖 度 。 

如 果 一 个 read 中 有 错误 ， 那 么 就 很 可 能 出 现 这 种 情况 : 与 错误 重 登 的 kmer 在 基因 组 中 是 
唯一 的 或 接近 唯一 的 。 考 虑 一 下 英语 中 同样 的 情况 ， 如 果 你 从 莎士比亚 作品 中 得 到 read， 
有 个 read 是 “to be or nob to be”， 那 么 6-mer“nob to” 会 很 少 或 根本 不 出 现 ， 而 “not to” 
会 出 现 得 非常 频繁 。 

这 就 是 kmer 错误 修正 方法 的 基础 : 先 将 read 分 割 成 kmer， 再 计算 出 每 个 kmer 的 出 现 
次 数 ， 然 后 通过 某 种 逻辑 用 常见 的 k-mer 替换 read 中 非常 罕见 的 相似 -mer。( 或 者 丢弃 
那些 带 有 错误 k-mer 的 read。 这 是 可 行 的 ， 因 为 read 的 元 余 很 高 ， 所 以 允许 我 们 丢弃 错 
误 数 据 。) 

这 也 是 一 个 必须 使 用 流 的 示例 ， 前 面 说 过 ，read 的 数量 非常 多 ， 我 们 不 想 将 它们 都 保存 在 
内 存 中 。 

DNA 序列 数据 通常 表示 为 FASTA 格式 。 这 是 一 种 纯 文本 格式 ， 每 个 文件 包含 一 个 或 多 个 
DNA 序列 ， 由 名 称 和 实际 序列 组 成 。 


以 下 是 一 个 FASTA 文件 示例 。 


































































































> Sequence_name1 
TCAATCTCTTTTATATTAGATCTCGTTAAAGTAAAATTTTGGTTTGTGTTAAAGTACAAG 
GGGTACCTATGACCACGGAACCAACAAAGTGCCTAAATAGGACATCAAGTAACTAGCGGT 
ACGCT 


> Sequence_name2 
ATGTCCCAGGCGTTCCTTTTGCATTTGCTTCGCATTAACAGAATATCCAGCGTACTTAGG 
ATTGTCGACCTGTCTTGTCGTACGTGGCCGCAACACCAGGTATAGTGCCAATACAAGTCA 
GACTAAAACTGGTTC 


现在 我 们 已 经 具备 所 需 信息 ，FASTA 文件 中 的 行 就 是 一 个 流 ， 我 们 可 以 将 这 个 流转 换 为 
k-mer 计数 : 


。 过 滤 行 ， 只 使 用 序列 行 ; 
。 为 每 一 行 生成 一 个 mer 流 ，; 
。 将 每 个 kmer 加 入 一 个 字典 计数 器 。 


下 面 是 只 使 用 内 置 函数 的 纯 Python 代码 的 实现 。 




















def is_sequence(line): 
Line = line.rstrip() # 删除 行 尾 的 \n 
return len(line) > 0 and not line.startswith('>') 


def reads_to_kmers(reads_iter，k=7): 
for read in reads_iter: 
for start in range(0, len(read) - k): 
yield read[start : start + k] # 注意 yield， 这 是 一 个 生成 器 


def kmer_counter(kmer_iter): 
counts = {} 
for kmer in kmer_iter: 
if kmer not in counts: 
counts[kmer] = 0 
Counts[kmer] += 1 
return counts 


with open('data/sample.fasta') as fin: 
reads = filter(is_sequence, fin) 
kmers = reads_to_kmers(reads) 
counts = kmer_counter(kmers) 


以 上 代码 完全 没有 问题 ， 而 且 以 流 方式 工作 ，read 从 磁盘 中 一 个 接 一 个 地 载 人 ， 依 次 通过 





k-mer 转换 器 到 达 k-mer 计数 器 。 接 下 来 可 以 绘制 出 计数 的 频率 分 布 图 ， 而 且 在 图 














可 以 看 到 ， 正 确 的 kmer 和 错误 的 k-mer 分 成 了 截然 不 同 的 两 组 。 


# 使 图 形 显 示 在 文本 中 ， 定 制 绘图 风格 
%matplotlib inline 

import matplotlib.pyplot as plt 
plt.style.use('style/elegant.mplstyle') 











def integer_histogram(counts, normed=True, xlim=[], ylim=[], 
*args, **kwargs): 
hist = np.bincount(counts) 
if normed: 
hist = hist / np.sum(hist) 
fig, ax = plt.subplots() 
ax.plot(np.arange(hist.size), hist, *args, **kwargs) 
ax.set xlabel('counts') 
ax.set_ylabel('frequency') 
ax.set xlim(*xlim) 
ax.set_ylim(*ylim) 


counts_arr = np.fromiter(counts.values(), dtype=int, count=lLen(counts)) 
integer_histogram(counts_arr, xlim=(-1, 250)) 


中 确实 
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从 上 图 可 以 看 到 -mer 频率 分 布 得 非常 漂亮 ， 图 形 左 侧 有 一 个 大 的 突起 ， 只 出 现 了 一 次 ， 
这 种 低频 率 的 k-mer 很 可 能 就 是 错误 。 

但 是 在 前 面 的 代码 中 ， 我 们 其 实 做 了 太 多 工作 。 我 们 写 在 for 循环 里 的 功能 和 yield 语句 
实际 上 就 是 流 操 作 : 将 一 种 数据 流转 换 为 另 一 种 数据 ， 并 最 终 累 积 起 来 。Toolz 中 有 很 多 
基本 的 流 操 作 功 能 ， 可 以 很 轻松 地 将 以 上 代码 的 功能 在 一 次 函数 调用 中 实现 。 而 且 一 旦 知 
道 了 转换 函数 的 名 称 ， 数 据 流 中 每 一 点 变化 的 可 视 化 也 变 得 非常 容易 。 

举例 来 说 ， 滑 动 窗口 函数 可 以 完美 地 满足 我 们 生成 上 mer 的 需要 。 


print(tz.sliding window._ doc ) 











A sequence of overlapping subsequences 


>>> list(sliding window(2, [1, 2, 3, 4])) 
[(1， 2)， (2， 3) ， (3， 4)] 


This function creates a sliding window suitable for transformations like 
sliding means / smoothing 


>>> mean = lambda seq: float(sum(seq)) / len(seq) 

>>> list(map(mean, sliding_window(2, [1, 2, 3, 4]))) 

[1.5, 2.5, 3.5] 
此 外 ， 频 率 函 数 可 以 为 数据 流 中 的 独立 项 目 计数 。 结 合 管道 操作 ， 可 以 在 一 次 函数 调用 中 
完成 kmer 计数 。 
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from toolz import curried as c 


k = 7 

counts = tz.pipe('data/sampLe.fasta' ，open， 
c.filter(is_ sequence), 
c.map(str.rstrip), 
c.map(c.sliding window(k)), 
tz.concat, c.map(''.join), 
tz.frequencies) 


不 过 先 等 等 ， 那 些 来 自 toolz.curried 的 c.function 到 底 是 什么 呢 ? 


8.4 柯 里 化 : 流 的 调料 


前 面 我 们 使 用 了 map 函数 的 柯 里 化 版 本 ， 它 可 以 将 一 个 给 定 函 数 应 用 到 序列 中 的 每 个 元 
素 。 既 然 已 经 使 用 了 很 多 柯 里 化 的 函数 ， 现 在 就 来 解释 一 下 什么 是 柯 里 化 。 柯 里 化 不 是 根 
据 那 种 调料 命名 的 〈 尽 管 它 可 以 使 代码 的 味道 更 好 )，” 它 的 名 称 来 自 提 出 这 个 概念 的 数学 
家 Haskell Curry。 以 Haskell Curry 命名 的 还 有 Haskell 编程 语言 ， 其 中 的 所 有 函数 都 是 柯 
里 化 的 ! 


“ 柯 里 化 ”意味 着 对 函数 进行 部 分 求 值 ， 并 将 未 求 值 的 部 分 作为 “更 小 ”的 函数 返回 。 通 
常 来 说 ， 在 Python 中 ， 如 果 没 有 给 函数 提供 所 需 的 所 有 参数 ， 那 么 函数 就 会 抛 出 错误 。 与 
此 不 同 ， 柯 里 化 的 函数 可 以 接受 部 分 参数 。 如 果 设 有 得 到 足够 的 参数 ， 它 会 返回 一 个 能 撕 
受 剩余 参数 的 新 函数 。 如 果 用 剩余 参数 调用 第 二 个 函数 ， 那 么 它 会 继续 执行 原来 的 任务 。 
表示 柯 里 化 的 另 一 个 术语 就 是 部 分 求 值 (partial evaluation)。 在 函数 式 编程 中 ， 想 要 生成 
等 待 随 后 出 现 的 其 余 参 数 的 函数 ， 柯 里 化 是 一 种 方法 。 

因 些 ， 如 果 函 数 调用 map(np.Log，numbers_List)， 对 number_list 中 的 所 有 数值 应 用 np. Tog 
函数 (返回 一 个 对 数值 序列 )， 那 么 toolz.curried.map(np.1o0g) 就 返回 一 个 函数 ， 这 个 函数 
可 以 接受 一 个 序列 并 返回 取 对 数 后 的 序列 。 

事实 证 明 ， 部 分 参数 已 知 的 函数 完美 匹配 流 操作 ! 在 以 上 代码 片段 中 ， 我 们 已 经 看 到 ， 柯 
里 化 和 管道 结合 使 用 时 是 多 么 强大 。 

但 刚 开 始 使 用 柯 里 化 时 ， 它 可 能 不 太 好 理解 ， 因 此 先 用 一 些 简单 示例 来 演示 其 用 法 。 我 们 
先 写 一 个 简单 的 、 非 柯 里 化 的 函数 。 


def add(a，b) : 
return a + b 













































































add(2，5) 
2 


然后 编写 一 个 手动 柯 里 化 的 类 似 函 数 。 








注 2: 柯 里 化 的 英文 是 currying，curry 是 咖 哇 的 意思 。 一 一 译 者 注 
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def add_curried(a, b=None): 

if b is None: 
# 没有 给 定 第 二 个 参数 ， 因 此 定义 一 个 函数 并 返回 该 函数 
def add_partial(b): 

return add(a, b) 

return add_partial 

else: 
# 两 个 参数 都 给 定 了 ， 因 此 可 以 返回 一 个 值 
return add(a，b) 


接着 测试 一 下 柯 里 化 函数 ， 确 定 它 能 按 我 们 的 期 望 工作 。 


add_curried(2，5) 



































7 
当 给 定 两 个 变量 时 ， 它 就 像 一 个 普通 函数 。 现 在 留 出 第 二 个 变量 


add_curried(2) 


i 





加 
oo 


<function _ main _.add_curried.<locals>.add partial> 
不 出 所 料 ， 它 返回 了 一 个 函数 。 现 在 使 用 这 个 函数 。 


add2 = add_curried(2) 
add2(5) 


7 


这 样 做 是 可 以 的 ， 但 add_curried 是 一 个 很 难 读 的 函数 ， 未 来 我 们 很 可 能 忘记 是 如 何 编 写 
这 段 代码 的 。 好 在 Toolz 中 的 工具 可 以 帮助 我 们 摆脱 这 种 困境 。 


import toolz as tz 





























Qtz.curry # 使 用 柯 里 化 作为 装饰 器 
def add(x, y): 
return x+y 


add_partial = add(2) 
add_partial(5) 


7 


总 结 一 下 ，add 现在 是 一 个 柯 里 化 的 函数 ， 它 可 以 接受 某 一 个 参数 ， 并 返回 一 个 可 以 “ 记 
住 ”这 个 参数 的 函数 ， 即 add_partiat。 


实际 上 ，Toolz 中 的 所 有 函数 在 toolz.curried 命名 空间 中 都 可 以 作为 柯 里 化 的 函数 。 
Toolz 中 还 有 一 些 方便 好 用 的 高 阶 Python 函数 的 柯 里 化 版 本 ， 包 括 map、filter 和 reduce。 
我 们 将 curried 命名 空间 导入 为 c， 目 的 是 避免 代码 过 于 杂乱 。 因 此 ，map 函数 的 柯 里 化 版 
本 就 是 c.map。 注 意 ， 柯 里 化 函数 (如 c.map) 与 @curry 装饰 器 不 同 ， 后 者 用 于 创建 柯 里 
化 函数 。 

















from toolz import curried as c 
c.map 


<CLass 'map'> 
提醒 一 下 ，map 是 内 置 函数 。 下 面 的 文字 摘自 Python 文档 : 


map(function，iterable，...) 返回 一 个 迭代 器 ， 它 可 以 将 function 应 用 于 iterable 
中 的 每 个 项 目 ， 并 逐步 生成 结果 。 


柯 里 化 的 map 函数 特别 适合 在 Toolz 管道 中 使 用 。 可 以 先 只 给 c.map 传递 一 个 函数 ， 然 后 
用 tz.pipe 在 迭代 器 中 进行 流 操 作 。 查 看 我 们 读 取 基 因 组 数据 的 函数 ， 你 会 看 到 它 实际 是 
如 何 应 用 的 。 


def genome(file_ pattern): 

"""Stream a genome, letter by letter, from a list of FASTA filenames. 
return tz.pipe(file_ pattern, glob,，sorted, # 文件 名 

c.map(open)，# 行 

# 连接 所 有 文件 中 的 行 

tz .Concat， 

# 去 掉 每 个 序列 的 标题 

c.filter(is_sequence), 

# 连接 所 有 行 中 的 字符 

tz.concat, 


# 去 掉 换行 符 和 N 


c.filter(is_ nucleotide)) 


8.5 回 到 K-mer 计 数 
了 解 什么 是 柯 里 化 后 ， 让 我 们 回 到 fk-mer 计数 代码 。 下 面 是 使 用 柯 里 化 国 数 的 代码 。 


from toolz import curried as c 





























k=7 

counts = tz.pipe('data/sample.fasta', open, 
c.filter(is_ sequence), 
c.map(str.rstrip), 
c.map(c.sliding window(k)), 
tz.concat, c.map(''.join), 
tz.frequencies) 


现在 可 以 看 一 下 不 同 k-mer 的 出 现 频率 。 


counts = np.fromiter(counts.values(), dtype=int, count=lLen(counts)) 
integer_histogram(counts, xlim=(-1, 250), lw=2) 
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使 用 流 的 几 个 小 技巧 

。 用 tz.concat 将 “列表 的 列表 ”转换 为 “长 列表 ”。 

。 注意 以 下 问题 。 

一 选 代 器 是 消耗 品 。 如 果 你 创建 了 一 个 生成 器 对 象 ， 并 用 它 进 行 了 一 些 操作 ， 但 
后 面 的 步骤 出 现 了 错误 ， 那 么 你 需要 重新 创建 这 个 生成 器 。 原 来 的 生成 器 已 经 
不 存在 了 。 

一 和 迭代 器 是 惰性 的 ， 有 时 需要 强制 求 值 。 

。 当 管 道中 有 多 个 函数 时 , 有 时 很 难 搞 清楚 哪里 出 了 问题 。 此 时 可 以 使 用 一 个 小 的 流 ， 
从 第 一 个 (最 左 侧 ) 也 数 开 始 向 管道 中 逐个 添加 有 函数， 直到 找到 出 错 的 肠 数 。 你 还 
可 以 在 流 的 任意 位 置 插入 map(do(pring)) (map 和 do 都 来 自 toolz.curried)， 以 打 
印 出 流 中 的 每 个 元 素 。 














练习 : 流 数 据 的 主 成 分 分 析 

scikit-learn 库 中 有 一 个 IncrementalPCA 类 ， 该 类 可 以 在 不 将 整个 数据 集 载 入 内存 的 情况 下 
对 数据 集 进行 主 成 分 分 析 。 但 你 需要 自己 把 数据 分 块 ， 这 就 增加 了 编写 代码 的 难度 。 编 写 
一 个 能 接受 数据 样本 流 并 进行 主 成 分 分 析 的 函数 ， 然 后 用 这 个 函数 为 iris 机 器 学 习 数 据 集 
做 主 成 分 分 析 ， 这 个 数据 集 在 datayiris.csv 中 。( 还 可 以 使 用 datasets.load_iris() 国 数 从 
scikit-learn 的 datasets 模块 中 获取 这 个 数据 集 。) 或 者 ， 你 也 可 以 使 用 种 类 编号 为 数据 点 
着 色 ， 可 以 在 data/iris-target.csv 中 找到 种 类 编号 。 


























IncrementaLPCA 类 位 于 sklearn.decomposition 模块 中 ， 它 需要 一 个 大 于 1 的 
批量 大 小 (batch size) 参数 来 训练 模型 。 查 看 toolz.curried.partition 国 数 ， 
了 解 如 何 从 一 个 数据 点 流 创建 出 一 个 批量 流 。 








8.6 “全 基因 组 的 马尔 可 夫 模型 


回 到 原来 的 示例 代码 ， 什 么 是 马尔 可 夫 模型 ? 它 有 什么 用 途 ? 


一 般 来 说 ， 马 尔 可 夫 模 型 假设 系统 转移 到 某 个 特定 状态 的 概率 只 依赖 于 其 所 处 的 前 一 个 状 
态 。 例 如 ， 如 果 现 在 艳阳 高 照 ， 那 么 明天 很 可 能 也 是 晴天 ， 而 上 昨天 下 过 雨 这 一 事实 则 根本 
不 在 考虑 范围 之 内 。 根 据 这 个 理论 ， 预 测 未 来 所 需 的 所 有 信息 都 包含 在 事物 的 当前 状态 
中 ， 以 前 的 状态 无 关 紧 要 。 对 于 那些 难以 用 其 他 方法 处 理 的 问题 ， 使 用 这 个 假设 进行 简化 
是 非常 有 用 的 ， 而 且 经 常 能 得 到 非常 好 的 结果 。 例 如 ， 移 动 电话 的 信号 处 理 和 卫星 通信 经 
常会 使 用 马尔 可 夫 模型 。 


接 下 来 我 们 会 看 到 ， 对 基因 组 而 言 ， 不 同 的 基因 功能 区 域 在 相似 状态 间 具 有 不 同 的 转移 概 
率 。 在 一 个 新 基因 组 中 观测 这 种 现象 ， 可 以 根据 观测 结果 对 这 些 区 域 进行 某 种 预测 。 还 是 
拿 天 气 来 类 比 ， 天 气 晴 转 雨 的 概率 ， 在 洛杉矶 的 情况 会 不 同 于 在 伦敦 。 因 此 ， 如 果 给 你 一 
系列 天 气 状 态 (上 晴 、 上 晴 、 睛 、 雨 、 睛 …… )， 并 假设 你 已 经 有 了 一 个 预先 训练 好 的 模型 ， 
那 你 就 能 预测 这 种 天 气 是 出 自治 杉 矶 还 是 伦敦 。 

本 章 只 涉及 模型 构建 。 
你 需要 下 载 黑 腹 果 晶 基 因 组 文件 dm6.fa.gz (http://hgdownload.cse.ucsc.edu/goldenPath/dm6/ 
bigZips/) ， 然 后 用 gzip -d dm6.fa.gz 命令 来 解压 缩 文件 。 

在 这 份 基因 组 数据 中 ， 基 因 序 列 由 字母 A、C、G 和 T 组 成 ， 按 照 它 们 是 小 写 (重复 ) 还 
是 大 写 ( 非 重复 ) 编码 为 重复 片段 。 构 建 马 尔 可 夫 模 型 时 可 以 利用 这 个 信息 。 


我 们 将 马尔 可 夫 模 型 表示 为 NumPy 数组 ， 因 此 要 使 用 字典 建立 字母 到 [0, 7] 之 间 标号 的 
索引 (LDICT 表示 “字母 字典 ") ， 以 及 字母 对 到 〈[0, 7], [0, 7]) 之 间 的 二 维 标 号 的 索引 
(PDICT 表示 “字母 对 字典 ”)。 


import itertools as it 




























































































LDICT = dict(zip('ACGTacgt', range(8))) 
PDICT = {(a, b): (LDICT[a], LDICT[b]) 
for a, b in it.product(LDICT, LDICT)} 
我 们 还 要 过 滤 无 意义 的 数据 : 序列 名 称 ， 即 以 > 开头 的 行 ， 还 有 用 N 标 记 的 未 知 序 列 。 通 
def is_sequence(Line) : 


return not line.startswith('>') 


def is nucleotide(letter): 
return Letter in LDICT # 忽略 N 
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最 后 ， 只 要 得 到 一 个 新 核 苷 酸 对 〈 如 (A，T))， 就 在 马尔 可 夫 模型 (NumPy 矩阵) 的 相应 
位 置 增加 一 项 。 我 们 用 一 个 柯 里 化 的 函数 来 完成 这 个 操作 。 


import toolz as tz 





Qtz.curry 
def increment_modeL(modeL，index) : 
model[index] += 1 


现在 可 以 将 这 些 函 数组 合 起 来 ， 将 一 个 基因 组 通过 流 处 理 转 换 为 NumPy 人 矩阵。 需要 注意 
的 是 ， 如 果 下 面 的 seq 是 一 个 流 ， 那 么 就 不 需要 将 整个 基因 组 (其 至 基因 组 中 的 一 大 块 ) 
保存 在 内 存 中 ! 


from toolz import curried as c 

















def markov(seq) : 

"""Get a 1st-order Markov model from a sequence of nucleotides. 

model = np.zeros((8, 8)) 

tz.last(tz.pipel(seq, 
c.sliding window(2), # 每 个 连续 元 组 
c.map(PDICT. getitem _)， # 元 组 在 矩阵 中 的 位 置 
c.map(increment_model(model)))) # 扼 阵 相应 元 素 加 1 

# 将 计数 转换 为 转移 概率 矩阵 

model /= np.sum(model, axis=1)[:, np.newaxis] 

return model 


现在 只 需要 生成 基因 组 流 ， 并 建立 马尔 可 夫 模 型 。 


from glob import glob 

















def genome(file pattern): 
"""Stream a genome, letter by letter, from a list of FASTA filenames. 
return tz.pipe(file pattern,glob，sorted, # 文件 名 
c.map(open)，# 行 
# 连接 所 有 文件 中 的 行 
tz.concat, 
# 去 掉 每 个 序列 的 标题 
c.filter(is_sequence), 
# 连接 所 有 行 中 的 字符 
tz.concat, 
# 去 掉 换 行 符 和 N 


c.filter(is_nucleotide)) 


接 下 来 在 果 晶 基因 组 上 测试 一 下 。 


# 从 ftp://hgdownload.cse.ucsc.edu/goldenPath/dm6/bigzips/ 下 载 dm6.fa.gz 
# 使 用 前 ， 用 gzip -d dm6.9a.9z 命 令 解 压缩 文件 

dm = 'data/dm6.fa' 

model = tz.pipe(dm, genome, c.take(10**7), markov) 

# 为 了 加 快速 度 ， 使 用 take， 只 在 前 1099 万 个 碱 基 上 运行 

# 如 果 你 可 以 等 5~16 分 钟 ， 就 可 以 省 去 take 这 一 步 


查看 结果 算 阵 。 
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def plot model(model, labels, figure=None): 
fig = figure or plt.figure() 
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8]) 
im = ax.imshow(model, cmap="'magma'); 
axcolor = fig.add_axes([0.91, 0.1, 0.02, 0.8]) 
plt.colorbar(im, cax=axcolor) 


for axis in [ax.xaxis, ax.yaxis]: 
axis.set_ ticks(range(8)) 
axis.set ticks position('none') 
axis.set ticklabels(labels) 


return ax 


plot_model(model, labels="'ACGTacgt'); 
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图 8-1: 果 蝇 基 因 组 基因 序列 的 转移 概率 矩阵 
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注意 C-A 和 G-C 转移 在 基因 组 的 重复 部 分 和 非 重复 部 分 有 多 大 程度 的 不 同 ， 我 们 可 以 用 
这 种 信息 为 以 前 未 知 的 DNA 序列 分 类 。 


练习 : 在 线 解 压 


在 管道 开始 位 置 添加 一 个 数据 解压 步骤 ， 这 样 就 无 须 在 硬盘 上 保留 一 份 解压 后 的 数据 了 。 
以 果 蝇 基因 组 为 例 ， 使 用 gzip 压缩 后 ， 所 占 硬 盘 空 间 还 不 到 原来 的 13。 是 的 ， 解 压 也 可 
以 通过 流 实现 ! 











Python 标准 库 中 的 gzip 包 可 以 像 打 开 普通 文件 一 样 打开 .gz 文件 。 





学 习 完 本 章 后， 我 们 希望 你 至 少 能 够 理解 这 个 概念 : 要 想 在 Python 中 更 轻松 地 进行 流 操 
作 ， 可 以 使 用 一 些 抽象 方法 ， 就 像 Toolz 提供 的 那样 。 


流 操 作 可 以 提高 你 的 工作 效率 ， 因 为 相对 于 小 数据 来 说 ， 大 数据 操作 需要 的 时 间 是 线性 增 
加 的 。 在 批量 分 析 中 ， 大 数据 要 花费 特别 长 的 运行 时 间 ， 因 为 操作 系统 必须 保持 从 内 存 到 
硬盘 以 及 反方 向 的 数据 传输 。 如 果 不 使 用 流 操作 ， 一 旦 出 现 错误 ，Python 就 会 将 任务 整体 
拒绝 ， 简 单 地 显示 一 个 MemoryError 错误 ! 在 很 多 分 析 中 ， 处 理 更 大 的 数据 集 并 不 需要 更 
大 的 机 器 。 而 且 ， 如 果 程 序 在 小 数据 上 通过 测试 ， 那 么 在 大 数据 上 也 同样 有 效 ! 

本 章 的 实际 结论 是 : 编写 算法 或 进行 分 析 时 ， 需 要 先 考虑 是 否 可 以 通过 流 操作 实现 。 如 果 
可 以 ， 那 么 从 一 开始 就 要 使 用 流 ， 未 来 的 你 会 感激 这 个 决定 。 否 则 ， 以 后 再 想 使 用 流 操 
作 ， 难 度 会 大 大 增加 ， 产 生 的 严重 后 果 就 像 图 8-2 中 的 一 样 。 



























































请 在 1272 年 冬季 | 
前 加 固 南 侧 地 基 。 | 














图 8-2: 历史 上 的 待 办 事件 (漫画 作者 Manu Cornet， 经 许可 使 用 ) 
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品质 就 是 没有 人 监督 也 要 踏 踏实 实地 做 好 。 
一 一 亨利 .福特 


本 书 的 主要 目标 是 促进 NumPy 和 SciPy 的 优雅 使 用 。 除 了 教会 你 如 何 使 用 SciPy 进行 有 效 
的 科学 分 析 ， 我 们 也 希望 本 书 能 够 鼓舞 你 编写 高 质量 的 代码 ， 并 意识 到 高 质量 的 代码 是 值 
得 追求 的 。 


然后 该 做 什么 


如 果 你 已 经 熟练 掌握 SciPy， 可 以 分 析 遇 到 的 所 有 数据 ， 那 么 下 一 步 该 做 什么 呢 ? 本 书 开 
头 就 曾经 说 过 ， 本 书 不 可 能 全 面 介绍 SciPy 库 及 其 所 有 衍生 库 。 接 下 来 将 提供 几 种 对 你 
有 帮助 的 丰富 资源 。 


邮件 列表 


前 言 中 提 到 过 ，SciPy 是 一 个 大 社区 。 继 续 学 习 的 一 种 好 方法 就 是 订阅 NumPy、SciPy、 
pandas、IMatplotlib、scikit-image 和 你 可 能 感 兴趣 的 其 他 库 的 主 邮件 列表 ， 并 定期 阅读 。 


当 你 在 工作 中 遇 到 困难 时 ， 放 心地 在 邮件 列表 中 寻求 帮助 吧 ! 列表 中 都 是 一 些 非常 友好 的 

家 伙 ! 在 寻求 帮助 时 ， 最 主要 的 就 是 要 表明 你 已 经 在 努力 解决 问题 了 ， 还 应 该 提供 一 些 脚 

本 和 足够 的 样本 数据 来 演示 你 的 问题 ， 并 说 明 你 是 如 何 努 力 解决 问题 的 。 

。 不 要 这 样 说 :“ 我 需要 生成 一 个 随机 的 符合 高 斯 分 布 的 大 数组 ， 有 人 能 帮 有 我 吗 ? “ 

。 不 要 这 样 说 :“ 在 https://github.com/ron_obvious 中 有 一 个 巨大 的 库 。 如 果 你 查看 其 中 的 
统计 库 ， 会 发 现 有 一 个 部 分 需要 随机 高 斯 分 布 。 有 人 能 帮忙 看 一 下 吗 ? ” 
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。 应 该 这 样 说 :“ 我 在 设法 生成 一 个 随机 高 斯 分 布 大 列表 ， 如 : gauss = [np.random. 
randn()] * 19x**5， 但 计算 np.mean(gauss) 时 总 是 不 能 像 我 预想 的 那样 趋 近 于 0。 我 哪 
里 做 错 了 吗 ? 以 下 是 完整 的 脚本 。 


GitHub 
前 言 中 还 提 到 了 GitHub。 我 们 讨论 过 的 所 有 代码 都 是 托管 在 GitHub 上 的 : 


。 NumPy (https://github.com/numpy/numpy) 
。 SciPy (https://github.com/scipy/scipy) 


还 有 其 他 代码 。 当 代码 没有 像 你 预想 的 那样 工作 时 ， 其 中 可 能 有 bug。 经 过 一 番 研 究 后 ， 
你 确信 自己 发 现 了 bug， 那 么 就 应 该 去 相应 GitHub 仓库 的 “issues” 标 签 页 创建 一 个 新 问 
题 。 这 能 确保 库 的 开发 者 获悉 该 问题 ， 并 有 望 在 程序 的 下 一 个 版 本 中 得 到 修正 。 顺 便 说 一 
下 ， 对 于 文档 中 的 “bug”， 你 也 可 以 这 样 做 : 如 果 库 的 文档 有 不 清楚 的 地 方 ， 那 么 就 提交 
一 个 问题 | 


比 提交 问题 效果 更 好 的 做 法 是 提交 pull request。 提 交 能 改善 库 文档 的 pull request 是 你 参 

与 开源 开发 的 一 个 好 方法 ! 我 们 不 会 详细 介绍 这 个 过 程 ， 很 多 图 书 和 资源 都 可 以 帮助 你 。 

。 Anthony Scopatz 和 Katy huff 合 著 的 《Python 物理 学 高 效 计算 》 一 书 介 绍 了 Git 和 
GitHub， 还 有 很 多 其 他 科学 计算 话题 。 

。 Peter Bell 和 Brent Beer 合 著 的 《GitHub 入 门 》 一 书 更 加 详尽 地 介绍 了 GitHub。 

。 Software Carpentry 有 一 门 Git 课程 ， 并 且 全 年 在 世界 各 地 举办 免费 的 研讨 班 。 

。 部 分 基于 这 些 课 程 ， 一 位 作者 创建 了 一 套 关 于 Git 和 GitHub pull request 的 完整 教程 ， 
“Open Source Science with Git and GitHub” (http:VWjni.github.io/git-tutorial/) 。 

。 最 后 ，GitHub 上 的 很 多 开源 项 目 都 有 一 个 CONTRIBUTING 文件 (https://github.com/ 
scikit-image/scikit-image/blob/masterCONTRIBUTING.txt) ， 其 中 包含 了 为 项 目 贡献 代码 
的 指南 。 


因此 ， 你 可 以 就 GitHub 得 到 很 多 帮助 ! 


我 们 鼓励 你 尽 可 能 为 SciPy 生态 系统 做 贡献 ， 这 不 仅 可 以 使 库 更 好 地 为 他 人 服务 ， 也 是 提 
高 你 编程 能 力 的 最 佳 方法 之 一 。 每 提交 一 个 pull request， 你 都 会 收 到 关于 自己 代码 的 反 
馈 ， 可 以 帮助 你 改进 代码 。 你 还 能 更 加 熟悉 GitHub 贡献 的 过 程 和 规则 ， 这 在 当今 职场 是 
非常 重要 的 技能 。 


全 

会 以 

基于 同样 的 理由 ， 我 们 强烈 建议 你 参加 该 领域 的 一 个 编程 会 议 。 每 年 都 在 奥斯汀 举办 的 
SciPy 会 议 非常 精彩 ， 如 果 你 喜欢 本 书 ， 那 么 它 就 是 你 的 最 佳 选 择 。 欧 洲 也 有 一 个 同样 的 
会 议 ， 叫 作 EuroSciPy， 每 两 年 更 换 一 次 主办 城市 。 最 后 ， 最 著名 的 PyCon 会 议 是 在 美国 
举行 的 ， 但 世界 各 地 都 有 分 支 会 议 ， 比 如 澳大利亚 的 PyCon-AU， 它 在 主 会 议 的 前 一 天 会 
有 一 个 主题 为 “科学 与 数据 ”的 小 型 会 议 。 
















































































不 管 选择 哪个 会 议 ， 你 都 应 该 参加 一 下 会 议 末 尾 的 编程 冲刺 活动 。 编 程 冲刺 是 一 种 组 队 编 
程 的 高 强度 训练 ， 不 管 你 的 编程 技能 如 何 ， 它 都 是 学 习 如 何 为 开源 软件 做 贡献 的 极 好 机 
会 。 本 书 作者 之 一 〈 胡 安 ) 就 是 从 此 走 上 开源 之 路 的 。 





SciPy 之 外 


SciPy 库 不 只 是 用 Python 编写 的 ， 它 还 使 用 了 高 度 优化 的 C 和 Fortran 代码 ， 它 们 可 以 通 
过 接口 与 Python 连接 。SciPy 与 NumPy 及 其 他 相关 库 一 起 ， 可 以 解决 科学 数据 分 析 中 的 
大 多 数 问题 ， 并 提供 用 以 解决 这 些 问 题 的 高 效 函 数 。 但 有 时 某 个 科学 问题 会 与 SciPy 中 的 
现 有 功能 不 太 匹配 ， 而 纯 Python 解决 方案 又 速度 太 慢 ， 并 不 实用 ， 该 怎么 办 呢 ? 


Micha Gorelick 和 Ian Ozsvald 合 昔 的 《Python 高 性 能 编程 》 一 书 介绍 了 这 种 情况 下 需要 掌 
担 的 知识 : 如 何 找到 确实 需要 高 性 能 的 地 方 ， 以 及 实现 高 性 能 的 几 各 方法。 强烈 推 荐 你 阅 
读 一 下 此 书 。 
接 下 来 再 简单 介绍 两 种 与 SciPy 关系 特别 密切 的 编程 语言 。 


首先 是 Cython， 它 是 Python 的 一 个 变种 ， 可 以 将 Python 脚本 编译 成 C 代码 ， 然 后 再 导入 
Python。 为 Python 变量 提供 一 些 类 型 和 注解， 意味 着 编译 后 的 C 代码 可 以 比 相应 的 Python 
代码 快 几 百 甚至 几 千 倍 。Cython 现在 已 经 是 行业 标准 ， 大 量 应 用 于 NumPy、SciPy 和 很 
多 相关 库 (如 scikit-image)， 以 在 基于 数组 的 代码 中 提供 快速 算法 。Kurt Smith 撰写 了 
Cython 一 书 来 介绍 这 上 门 语言 的 基础 知识 。 


比 Cython 更 易于 使 用 的 是 Numba， 它 是 一 种 实时 (JIT，just-in-time) 编译 器 ， 用 来 编译 
基于 数组 的 Python 脚本 。JIT 可 以 在 函数 运行 时 推断 出 函数 所 有 参数 和 输出 的 类 型 ， 并 将 
代码 编译 成 适合 这 些 类 型 的 高 效 格式 。 在 Numba 代码 中 ， 无 须 注解 类 型 ， Numba 会 在 第 
一 次 调用 函数 时 推断 出 这 些 类 型 。 但 是 ， 你 必须 确保 只 使 用 基本 数据 类 型 ( 整 型 、 浮 点 型 
等 ) 和 数组 ， 不 使 用 更 复杂 的 Python 对 象 。 在 这 种 情况 下 ，Numba 可 以 将 Python 代码 向 
下 编译 成 非常 高 效 的 代码 ， 计 算 速 度 可 以 提高 好 几 个 数量 级 。 

Numba 还 很 年 轻 ， 但 已 体现 出 实用 性 。 更 重要 的 是 ， 它 展示 出 了 Python JIT 的 可 能 性 ， 
Python JIT 已 经 变 得 非常 普遍 : Python 3.6 新 增 了 功能 ， 以 便 更 容易 地 使 用 各 种 新 JIT (Pyjion 
JIT 就 基于 这 些 新 增 功能 )。 在 胡 安 的 博客 上 ， 你 可 以 看 到 Numba 应 用 的 一 些 示 例 ， 以 及 将 
它 与 SciPy 协同 使 用 的 方法 。 当 然 ，Numba 自己 也 有 一 个 非常 活跃 和 友好 的 邮件 列表 。 


为 本 书 做 贡献 
本 书 的 源 文件 托管 在 GitHub (以 及 本 书 网 站 ) 上 。 与 你 为 任何 其 他 开源 项 目 做 贡献 一 样 ， 如 
果 你 发 现 了 本 书 的 技术 错误 或 拼写 错误 ， 可 以 提交 问题 或 pull request， 我 们 将 非常 感激 。 


为 了 演示 SciPy 和 NumPy 库 的 各 种 功能 ， 我 们 使 用 了 一 些 能 找到 的 最 佳 代码 。 如 果 你 有 更 
好 的 示例 ， 请 在 仓库 中 提交 问题 ， 我 们 很 乐于 在 未 来 的 版 本 中 使 用 这 些 示例 。 


本 书 的 Twitter 账号 是 @elegantscipy， 如 果 想 要 讨论 本 书 ， 就 给 我 们 发 消息 吧 。 作 者 的 账 
号 分 别 是 @jnuneziglesias、@stefanvdwalt 和 @stefanvdwalt。 












































































































































如 果 你 利用 本 书 的 思想 或 代码 在 科学 研究 中 取得 了 进展 ， 请 一 定 告诉 我 们 ， 我 们 特别 希望 
昕 到 这 样 的 消息 ， 这 正 是 SciPy 的 价值 所 在 ! 


后 会 有 期 


希望 你 喜欢 本 书 并 觉得 它 很 用。 如 果 确 实 如 此 ， 请 转告 你 的 朋友 ， 并 在 邮件 列表 、 会 
议 、GitHub 和 Twitter 上 积极 互动 。 感 谢 你 阅读 本 书 ， 希 望 你 能 从 本 书 中 收获 很 多 ! 



































练习 各 案 


A.1 答案 : 为 图 像 覆 盖 一 个 网 格 


这 是 “练习 : 为 图 像 覆盖 一 个 网 格 ” 的 答案 。 


可 以 用 NumpPy 的 切片 操作 来 选择 网 格 的 行 ， 将 它们 设置 为 蓝 色 ， 然 后 再 选择 列 ， 将 它们 
也 设置 为 蓝 色 ( 见 图 A-1)。 


def overlay_grid(image, spacing=128): 
"""Return an image with a grid overlay, using the provided spacing. 











Parameters 
image : array, shape (M, N, 3) 
The input image. 
spacing : int 
The spacing between the grid lines. 


Returns 
image_gridded : array, shape (M, N, 3) 

The original image with a blue grid superimposed . 
image_gridded = image.copy() 
image_gridded[spacing:-1:spacing, :] = [0, 0, 255] 
image_gridded[:, spacing:-1:spacing] = [0, 0, 255] 
return image_gridded 


plt.imshow(overlay_grid(astro, 128)); 
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图 A-1: 覆盖 了 网 格 的 宇航 员 图 片 


注意 ， 我 们 用 -1 表示 轴 上 的 最 后 一 个 值 ， 就 像 Python 索引 一 样 。 你 可 以 省 略 这 个 值 ， 但 
含义 会 有 些 不 同 。 如 果 没 有 这 个 值 ( 即 spacing::spacing) ， 那 么 到 达 数 组 末尾 时 会 包含 
最 后 的 行 或 列 。 如 果 将 -1 作为 结束 索引 ， 最 后 一 行 就 不 能 被 选择 。 在 覆盖 网 格 的 情况 下 ， 
或 许 这 才 是 我 们 要 做 的 。 


A.2 答案 : 康 威 的 生命 游戏 


这 是 “练习 : 康 威 的 生命 游戏 ”的 答案 。 


Nicolas Rougier (@NPRougier) 在 其 100 NumPy Exercises 的 第 79 个 练习 中 提供 了 一 个 纯 
NumPy 解决 方案 。 


def next_generation(Z) : 





N = (Z[0:-2,0:-2] + Z[0:-2,1:-1] + Z[0:-2,2:] + 
Z[1:-1,0:-2] + Z[1:-1,2:] + 
Z[2: ,0:-2] + Z[2: ,1:-1] + Z[2: ,2:]) 


# 应 用 规则 

birth = (N==3) & (Z[1:-1,1:-1]==0) 

survive = ((N==2) | (N==3)) & (Z[1:-1,1:-1]==1) 
Zliisl = 0 

Z[1:-1,1:-1][birth | survive] = 1 

return Z 
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然后 可 以 用 以 下 代码 开始 一 个 新 的 游戏 板 。 


random_board = np.random.randint(0, 2, size=(50, 50)) 
n_generations = 100 
for generation in range(n_generations): 

random_board = next_generation(random_board) 


使 用 通用 滤波 器 会 更 容易 。 


def nextgen_filter(values): 
center = values[len(valuyes) // 2] 
neighbors_count = np.sum(vaLues) - center 
if neighbors_count == 3 or (center and neighbors_count == 2): 
return 1. 
else: 
return 0. 








def next_generation(board): 
return ndi.generic filter(board, nextgen_filter, 
size=3, mode='constant') 


这 样 做 的 好 处 是 ， 有 些 生命 游戏 的 演化 使 用 了 一 种 称 为 环形 板 的 规则 。 也 就 是 说 ， 游 戏 板 
的 左 端 和 右 端 可 以 “环绕 ”并 连接 在 一 起 ， 上 端 和 底 端 也 是 如 此 。generic_filer 使 得 修 
改 解决 方案 来 实现 这 种 环形 板 简 直 易如反掌 。 

def next_generation_toroidal(board): 


return ndi.generic filter(board, nextgen_filter, 
size=3, mode='wrap') 


现在 可 以 模拟 这 种 环形 板 在 几 个 时 代 的 变化 了 。 


random_board = np.random.randint(0, 2, size=(50, 50)) 
n_generations = 100 
for generation in range(n_generations): 

random_board = next_generation_toroidal(random board) 


A.3 答案 : Sobel 梯 度 幅 值 


这 是 “练习 : Sobel 梯度 幅 值 ”的 答案 。 


hsobel = np.array([[ 1, 2, 1], 
[ 0， 0， 0]， 
[-1， -2， -1]]) 





vsobel = hsobel.T 


hsobel_r = np.ravel(hsobel) 
vsobel_r = np.ravel(vsobel) 


def sobel magnitude filter(values): 
h_edge = values @ hsobeL_r 
v_edge = values @ vsobel_r 
return np.hypot(h_edge, v_edge) 
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现在 我 们 在 钱币 图 案 上 试验 一 下 。 


sobel_mag = ndi.generic filter(coins, sobel_magnitude filter, size=3) 
plt.imshow(sobel_ mag, cmap="'viridis'); 
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入 2— % 
A.4 答案 : 用 SciPy 进 行 曲线 拟 合 
这 是 “练习 : 用 SciPy 进行 曲线 拟 合 ” 的 答案 。 
来 看 一 下 curve_fit 的 文档 字符 串 的 开头 。 


Use nonlinear Least squares to fit a function, f, to data. 





Assumes “ ‘ydata = f(xdata, *params) + eps 


Parameters 

f : callable 
The model function, f(x, ...). It must take the independent 
variable as the first argument and the parameters to fit as 
separate remaining arguments. 

xdata : An M-Length sequence or an (k,M)-shaped array 
for functions with k predictors. 
The independent variable where the data is measured. 

ydata : M-Length sequence 
The dependent data --- nominally f(xdata, ...) 


看 起 来 我 们 只 需要 提供 一 个 能 接受 数据 点 和 某 些 参数 的 函数 ， 该 函数 返回 预测 值 。 在 示例 
中 ， 我 们 需要 累积 剩余 频率 ftq) 与 a? 成 正比 ， 也 就 是 说 ， 我 们 需要 fd) = ad*™。 
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def fraction_higher(degree, alpha, gamma): 
return alpha * degree ** (-gamma) 


当 d>10 时 ， 我 们 需要 待 拟 合 的 和 了 数据 。 


x = 1+ np.arange(len(survival)) 
valid =x > 10 

x = x[valid] 

y = survival[valid] 


现在 可 以 通过 curve_fit 得 到 拟 合 参数 。 


from scipy.optimize import curve fit 


alpha_fit, gamma_fit = curve fit(fraction higher, x, y)[0] 


绘制 结果 ， 看 看 效果 如 何 。 


y_fit = fraction higher(x, alpha_fit, gamma_fit) 


fig, ax = plt.subplots() 

ax.loglog(np.arange(1, len(survival) + 1), survival) 

ax.set xlabel('in-degree distribution') 

ax.set_ ylabel('fraction of neurons with higher in-degree distribution') 
ax.scatter(avg_in degree, 0.0022, marker='v') 

ax.text(avg_in_degree - 0.5, 0.003, 'mean=%.2f' % avg_in_degree) 
ax.set_ylim(0.002, 1.0) 

ax.loglog(x, y_fit, c='red'); 
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A.5 答案 : 图 像 卷 积 


这 是 “练习 : 图 像 卷 积 ”的 答案 。 


from scipy import signal 





x = np.random.random((50, 50)) 
np.ones((5, 5)) 


< 
1 


L = x.shape[0] + y.shape[0] - 1 


Px =L - x.shape[0] 
Py= LL - y.shape[0] 
xx = np.pad(x, ((0, Px), (0, Px)), mode='constant') 
yy = np.pad(y, ((0, Py), (0, Py)), mode='constant') 


zz = np.fft.ifft2(np.fft.fft2(xx) * np.fft.fft2(yy)).real 
print('Resulting shape:', zz.shape, ' <-- Why?') 


z = signal.convolve2d(x, y) 
print('Results are equal?', np.allclose(zz, 7z)) 


Resulting shape: (54, 54) <-- Why? 
Results are equal? True 


A.6 答案 : 混淆 矩阵 的 计算 复杂 度 
这 是 “练习 : 混 清 矩阵 的 计算 复杂 度 ” 的 答案 。 


你 应 该 记得 在 第 1 章 中 ，arr == k 可 以 创建 一 个 与 arr 相同 大 小 的 布尔 值 (True 或 False) 
数组 。 正 如 你 所 料 ， 这 需要 对 arr 进行 完整 的 遍历 。 因 此 ， 在 上 面 的 解决 方案 中 ， 对 于 
pred 和 gt 中 的 每 一 个 值 组 合 ， 我 们 都 要 完整 遍历 pred 和 gt。 原 则 上 来 说 ， 只 需要 遍历 这 
两 个 数组 一 次 ， 就 能 算出 cont， 因 此 这 种 多 次 遍历 是 没有 效率 的 。 


A.7 答案 : 计算 混淆 和 矩阵 的 另 一 种 方法 
这 是 “练习 ， 计 算 混淆 矩阵 的 另 一 种 方法 ”的 答案 。 

这 里 只 提供 两 种 方法 ， 但 其 实 还 有 很 多 其 他 方法 。 

第 一 种 方法 用 Python 内 置 的 ztp 函数 将 pred 和 gt 中 的 标签 成 对 组 合 起 来 。 


def confusion matrixi(pred, gt): 
cont = np.zeros((2, 2)) 
for i, j in zip(pred, gt): 
cont[i, j] += 1 
return cont 


第 二 种 方法 是 在 pred 和 gt 的 所 有 可 能 标号 之 间 选 代 ， 并 手工 取出 每 个 数组 中 相应 的 值 









































o 
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def confusion matrixi(pred, gt): 
cont = np.zeros((2, 2)) 
for idx in range(len(pred)): 
i = pred[idx] 
j = gt[idx] 
cont[i, j] += 1 
return cont 


在 这 两 种 方法 中 ， 第 一 种 更 加 “Python 化 ， 第 二 种 更 容易 转换 和 编译 成 C、Cython 和 
Numba 这 样 的 语言 (这 是 另外 一 本 书 的 主题 )， 从 而 提高 运行 速度 。 


全 已 R23 
A.8 答案 : 计算 混淆 矩阵 
这 是 “练习 : 多 类 泥 清 算 泗 ”的 答案 。 
我 们 只 需要 对 两 个 输入 数组 做 一 次 初始 遍历 ， 以 确定 最 大 的 标号 。 然 后 对 最 大 标号 加 1， 
以 解决 0 标号 和 Python 索引 从 0 开始 的 问题 。 接 着 就 可 以 创建 矩阵 ， 并 用 和 前 一 个 示例 相 
同 的 代码 填充 它 。 


def general_confusion matrix(pred, gt): 
Nn_classes = max(np.max(pred), np.max(gt)) + 1 
cont = np.zeros((n_classes, nNn_classes)) 
for i, j in zip(pred, gt): 
cont[i, j] += 1 
return cont 


A.9 答案 : COO 表示 

这 是 “练习 : COO 表示 ”的 答案 。 

先 列 出 数组 中 的 非 零 元 素 ， 从 左 到 右 ， 从 上 到 下 ， 就 像 英 文 阅读 顺序 一 样 。 
s2_data = np.array([6, 1, 2, 4, 5, 1, 9, 6, 7]) 

然后 按 同样 顺序 列 出 这 些 值 的 行 索引 。 
s2_row = np.array([0, 1, 1, 1, 1, 2, 3, 4, 4]) 

最 后 是 列 索 引 。 
s2_coL = np.array([2, 0, 1, 3, 4, 1, 0, 3, 4]) 

通过 检查 行 和 列 两 个 方向 上 是 否 相 等 ， 可 以 知道 这 样 能 否 生 成 正确 的 矩阵 。 


s2_co00 = sparse.coo_matrix(s2) 
print(s2_coo0.data) 
print(s2_coo0.row) 
print(s2_coo0.col) 




















[612451967] 
[611112344] 
[2061341034] 
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并 且 ， 


Ss2_coo1 = sparse.coo_ matrix((s2 data, (s2_row, s2_col))) 
print(s2_coo1.toarray()) 


0 0 
1 2 
0 1 
9 0 
0 0 


局 上 巴 呈 呈 下 
OOOOPPO 
NOOUoSO 
Ne nd ld sd 


el 


A.10 答案: 图 像 旋转 


这 是 “练习 : 图 像 旋转 ”的 答案 。 


可 以 通过 矩阵 乘法 实现 组 合 转 换 。 我 们 知道 如 何 围绕 原点 旋转 图 像 ， 也 知道 如 何 背 动 图 
像 。 因 此 ， 我 们 要 做 的 就 是 先 滑动 图 像 ， 使 其 中 心 位 于 原点 ， 然 后 旋转 图 像 ， 再 请 动 回 原 
来 的 位 置 。 
def transform_rotate_about_center(shape，degrees) : 
"""Return the homography matrix for a rotation about an image center. 
c = np.cos(np.deg2rad(angle)) 
s = Np.sin(np.deg2rad(angle)) 



































H_rot = np.array([[c, -s, 0]， 
Lss., "G0; 
[96, 606, 1]]) 
# 计算 图 像 中 心 坐标 
Center = np.array(image.shape) / 2 
# 将 图 像 中 心 移 到 原点 的 矩阵 
H_trO = np.array([[1，0，-center[0]]， 
[0, 1, -center[1]], 
[0，0， 1]] ) 
# 将 图 像 中 心 移 回 原来 位 置 的 矩阵 
H_tr1 = np.array([[1，0，center[0]]， 
[0，1，center[1]]， 
[0，0， 1]]) 















































# 完整 的 转换 矩阵 
H_rot cent = H_tr1l QH_rot @ H_ tro 


sparse_op = homography(H_rot_cent, image.shape) 
return sparse_op 
我 们 可 以 测试 一 下 效果 。 


tf = transform_rotate about_ center(image.shape, 30) 
plt.imshow(apply_transform(image, tf)); 
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A.11 答案 : 减少 内 存 占用 

这 是 “练习 : 减少 内 存 占 用 ”的 答案 。 

我 们 使 用 np.ones 建立 的 数组 是 只 读 的 ， 它 只 能 用 作 被 coo_matrix 加 总 的 值 。 可 以 用 
broadcast_to 创建 一 个 类 似 的 数组 ， 其 中 只 有 一 个 元 素 ,“ 虚 拟 ” 地 重复 nn 次。 


def confusion matrix(pred, gt): 
n = pred.size 
ones = np.broadcast_to(1., n) # 虚拟 数组 ，i1 个 元 素 重 复 n 次 
cont = sparse.coo matrix((ones, (pred, gt))) 
return cont 


确认 这 段 代码 像 所 预想 的 那样 奏效 。 


cont = confusion matrix(pred, gt) 
print(cont.toarray()) 

















[L333 二 本 

[E204 有 

我 们 没有 建立 和 原始 数据 一 样 大 的 数组 ， 只 建立 了 一 个 大 小 为 1 的 数组 。 随 着 处 理 的 数据 
集 越 来 越 大 ， 这 种 优化 方法 会 变 得 越 来 越 重要 。 
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A.12 答案 : 计算 条 件 灶 


这 是 “练习 : 计算 条 件 焙 ”的 答案 。 
要 得 到 联合 概率 表 ， 只 需要 将 表格 除 以 它 的 总 和 ， 这 个 例子 中 就 是 12。 


print('table total:', Np.sum(p_rain_g_month)) 
p_rain month = p_rain g_ month / np.sum(p_rain_g_month) 


table total: 12.0 
这 样 就 可 以 计算 出 给 定 rain 时 month 的 条 件 焙 了 。( 同 理 ， 如 果 我 们 知道 正在 下 雨 ， 那 么 
一 般 还 需要 知道 多 少 其 他 信息 才能 确定 现在 是 哪个 月 份 ? ) 

p_rain = np.sum(p_rain_month, axis=0) 

p_month_g_rain = p_rain month / p_rain 


Hmr = np.sum(p_rain * p_month_g_rain * np.log2(1 / p_month _g_rain)) 
print(Hmr) 









































T 


3.5613602411 


与 月 份 本 身 的 炉 比较 一 下 。 


p_month = np.sum(p_rain_month，axis=1) # 11/12， 但 这 种 方法 更 有 普遍 性 
Hm = np.sum(p_month * np.Log2(1 / p_month)) 
print(Hm) 





3.58496250072 


可 见 ， 知 道 今天 是 否 下 雨 可 以 使 得 猪 测 现在 是 哪个 月 份 的 准确 度 提 高 2 个 百分点 ! 但 千 万 
不 要 根据 这 种 猜测 种 庄稼 。 


A.13 答案 : 旋转 矩阵 
这 是 “练习 : 旋转 矩阵 ”的 答案 。 


第 1 部 分 


import numpy as np 





theta = np.deg2rad(45) 

R = np.array([[np.cos(theta), -np.sin(theta), 0], 
[np.sin(theta), np.cos(theta)，0] ， 
[ 0， 0, 1]]) 


print("R times the x-axis:", R @ [1, 0, 0]) 
print("R times the y-axis:", R @ [0, 1, 0]) 
print("R times a 45 degree vector:", R@ [1, 1, 0]) 


R times the x-axis: [ 0.70710678 0.70710678 0. ] 
R times the y-axis: [-0.70710678 0.70710678 0. ] 
R times a 45 degree vector: [ 1.11022302e-16 1.41421356e+00 0.00000000e+00] 
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第 2 部 分 


因为 用 R 乘 以 一 个 向 量 会 将 它 旋 转 45 度 ， 所 以 再 乘 以 一 次 RR 就 会 将 向 量 旋 转 90 度 。 和 矩阵 
乘法 满足 结合 律 ， 即 RCR = (RR)v， 因 此 S = RR 可 以 将 向 量 沿 z 轴 旋 转 90 度 。 




















@ 


Ss=R@R 
Se [1, 0, 0] 


[~ 


array([ 2.22044605e-16， 1.00000000e+00 ， 0.00000000e+00]) 


第 3 部 分 


print("R @ z-axis:", R @ [0, 0, 1]) 
R @ z-axis: [ 0. 0. 1.] 


R 同时 旋转 x 轴 和 y 轴 ， 不 旋转 z 轴 。 


第 4 部 分 
查看 eig 的 文档 ， 可 以 知道 它 返 回 两 个 值 : 一 个 一 维 的 特征 值 数组 ， 还 有 一 个 二 维 的 数 
组 ， 其 中 每 列 包 含 与 相应 特征 值 对 应 的 特征 向 量 。 


np.linalg.eig(R) 
































(array([ 0.70710678+0.70710678j, 0.70710678-0.70710678j,，1.00000000+0.j ])， 
array([[ 0.70710678+0.j ，0.70710678-0.j ，0.00000000+0.j ] 
[ 0.00000000-0.70710678j，0.00000000+0.70710678j，0.00000000+0.j js 
[ 0.00000000-0.j ，0.00000000+0. ，1.00000000+0.j ]])) 





除了 一 些 复数 特征 值 和 特征 向 量 ， 还 可 以 看 到 特征 值 1 对 应 的 特征 向 量 是 [0, 0, 1] 。 


A.14 答案 : 显示 近邻 视图 
这 是 “练习 : 显示 近邻 视图 ”的 答案 。 

在 近邻 视图 中 ， 我 们 不 在 轴 上 使 用 处 理 桨 度 ， 而 是 像 x 轴 一 样 ， 使 用 和 矩阵 O 标准 化 的 第 
三 小 的 特征 向 量 。( 与 对 x 轴 的 处 理 一 样 ， 如 果 需 要 ， 则 取 相 反 数 ! ) 


y = Dinv2 @ Vec[:, 2] 
asjl_index = np.argwhere(neuron_ids == 'ASJL') 
if y[asjl_index] < 0: 

闪 



























































plot_connectome(x, y, C, labels=neuron_ids, types=neuron_types, 
type_names=['sensory neurons', 'interneurons', 
'motor neurons'], 
xlabel='Affinity eigenvector 1', 
ylabel='Affinity eigenvector 2') 
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A.15 ”接受 挑战 : 稀 琉 和 矩阵 线性 代数 


这 是 “练习 挑战 : 稀 玻 算 阵 线性 代数 ”的 答案 。 

为 了 解决 这 个 挑战 ， 我 们 将 使 用 一 个 小 网 络 ， 因 为 这 样 更 容易 实现 可 视 化 。 这 个 挑战 的 后 
续 部 分 将 用 这 种 技术 来 分 析 更 大 的 网 络 。 

首先 从 邻接 算 阵 4 开始 ， 使 用 稀疏 抢 阵 的 格式 。 这 个 示例 使 用 CSR 格式 ， 它 是 应 用 线性 
代数 最 常见 的 格式 。 我 们 在 所 有 怎 阵 名 称 后 面 都 加 上 一 个 s， 表 示 它 们 是 稀 玻 格式 的 。 


from scipy import sparse 
import scipy.sparse.linalg 





As = sparse.csr_matrix(A) 
用 同样 的 方式 建立 连接 矩阵 。 
Cs= (As + As.T) / 2 


为 了 得 到 度 扯 阵 ， 可 以 使 用 “对 角 ” 稀 琉 矩阵 格式 ， 它 可 以 保存 对 角 阵 和 非 对 角 阵 。 


degrees = np.ravel(Cs.sum(axis=0)) 
Ds = sparse.diags(degrees) 
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轻松 得 到 拉 普 拉 斯 矩阵 。 


Ls= Ds - Cs 


现在 要 得 出 处 理 深度 。 注 意 ， 得 出 拉 普 拉 斯 矩阵 的 伪 逆 是 不 可 能 的 ， 因 为 它 会 是 一 个 稠密 
矩阵 〈 稀 玻 和 矩阵 的 逆 通常 不 是 稀疏 和 矩阵) 。 但 是 ， 我 们 要 使 用 伪 逆 计算 出 一 个 向 量 z， 以 满 
足 Lz=bp， 其 中 b=C OQ sign(4 -4")1 (参见 Varshney 等 人 的 补充 资料 ) 。 对 于 稠密 矩阵 ， 
可 以 简单 地 使 用 z = Li?b。 但 对 于 稀 玻 和 矩阵， 可 以 使 用 sparse.LinatLg.isotve 中 的 一 个 求解 
器 (参见 6.3.2 节 中 的 “求解 程序 ”部 分 )， 在 已 知 L 和 5 时 得 到 4 向 量 ， 而 不 用 求 逆 ! 


b = Cs.multiply((As - As.T).sign()).sum(axis=1) 
z, error = sparse.linalg.isolve.cg(Ls, b, maxiter=10000) 


最 后 ， 必 须 找 出 度 标 准 化 拉 普 拉 斯 矩阵 8 对 应 于 其 第 二 小 和 第 三 小 的 特征 值 的 特征 向 量 。 


第 5 章 中 介绍 过 ， 稀 玻 和 矩阵 的 数值 型 数据 在 .data 属性 中 。 我 们 用 这 个 属性 求 出 度 矩 阵 的 
倒数 。 


Dsinv2 = Ds.copy() 
Dsinv2.data = 1 / np.sqrt(Ds.data) 


最 后 用 SciPy 的 稀 足 线性 代数 函数 找 出 所 需 的 特征 向 量 。 和 矩阵 @ 是 对 称 的 ， 因 此 可 以 用 适 
用 于 对 称 和 矩阵 的 eigsh 函数 来 计算 特征 向 量 。 我 们 用 which 关键 字 参 数 来 指定 需要 与 最 小 
的 特征 值 对 应 的 特征 向 量 ， 并 用 k 指定 需要 3 个 最 小 的 特征 值 。 

Qs = Dsinv2 @ Ls @ Dsinv2 

vals, Vecs = sparse.linalg.eigsh(Qs, k=3, which='SM') 


sorted_indices = np.argsort(vals) 
Vecs = Vecs[:, sorted_ indices] 


最 后 ， 对 特征 向 量 进行 标准 化 ， 以 得 到 x 轴 和 yy 轴 的 坐标 如果 需要 ， 则 取 相 反 数 )。 


_dsinv, x, y = (Dsinv2 @ Vecs).T 
if x[vc2_index] < 0: 

































































x = -x 
if y[asjl_index] < 0: 
bh 


(注意 ， 与 最 小 特征 值 对 应 的 特征 向 量 总 是 一 个 全 部 为 1 的 向 量 ， 我 们 对 它 没有 兴趣 。) 然 
后 就 可 以 绘制 出 下 面 的 图 形 了 ! 


plot_connectome(x, z, C, labels=neuron_ids, types=neuron_types, 
type_names=['sensory neurons', 'interneurons', 
'motor neurons'], 
xlabel='Affinity eigenvector 1', ylabel='Processing depth') 

















plot_connectome(x, y, C, labels=neuron_ids, types=neuron_types, 
type_names=['sensory neurons', 'interneurons', 
'motor neurons'], 
xlabel='Affinity eigenvector 1', 
ylabel='Affinity eigenvector 2') 
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A.16 答案 : 处 理 悬 挂 节 点 


这 是 “练习 : 处 理 悬 挂 节点 ”的 答案 


为 了 得 到 随机 矩阵， 转移 矩阵 所 有 列 的 总 和 必须 为 1。 当 一 个 物种 不 是 其 他 物种 的 食物 时 ， 
就 不 满足 这 个 条 件 ， 因 为 这 一 列 全 是 0。 然 而 ， 如 果 将 这 一 列 都 换 成 1n， 那 代价 就 太 大 了 。 


关键 是 要 知道 ， 对 于 转移 矩阵 和 当前 概率 向 量 的 相 乘 ， 和 矩阵 中 的 所 有 行 页 献 相同 的 量 。 也 
就 是 说 ， 这 些 列 加 在 一 起 会 为 这 次 迭代 中 的 相 乘 结果 增加 一 个 单一 值 。 是 什么 值 呢 ? 就 是 
lj 乘 以 7 中 对 应 悬挂 节点 的 那个 元 素 。 这 可 以 表示 为 两 个 向 量 的 点 积 ， 一 个 向 量 在 对 应 
芸 挂 节 点 的 位 置 上 是 1/1n， 其 他 位 置 都 是 0， 另 一 个 向 量 是 当前 迭代 中 的 向 量 x。 


def power2(Trans, damping=0.85, max_iter=10**5): 
n = Trans.shape[0] 
dangling = (1/n) * np.ravel(Trans.sum(axis=0) == 0) 
ro0 = np.full(n, 1/n) 
r=r0 
for _ in range(max_iter): 
rnext = (damping * (Trans @ r + dangling @ r)+ 
(1 - damping) / n) 
if np.allclose(rnext, r): 
return rnext 
else: 
r = rnext 
return r 


手动 从 代 儿 次 斌 一下。 注意， 如 果 开 始 时 用 的 是 一 个 随机 向 量 (所 有 元 素 相 加 等 于 1)， 那 
么 下 一 次 和 迭代 得 到 的 还 是 随机 向 量 。 因 此 ， 从 这 个 国 数 输出 的 PageRank 是 一 个 真正 的 概 
率 向 量 ， 向 量 值 表示 沿 着 食物 链 中 的 链接 最 终 得 到 某 个 物种 的 概率 。 


A.17 答案 : 验证 方法 

这 是 “练习 : 不 同 特征 向 量 方法 的 等 价 性 ”的 答案 。 

np.corrcoef 可 以 给 出 一 个 向 量 列 表 中 的 所 有 向 量 对 之 间 的 皮尔 逊 相关 系数 。 这 个 系数 等 
于 1， 当 且 仅 当 两 个 向 量 彼此 之 间 是 标量 倍数 关系 。 he et 
方法 能 生成 同样 的 排名 。 


pagerank_power = power(Trans) 
pagerank_power2 = power2(Trans) 
np.corrcoef([pagerank, pagerank_power, pagerank_power2]) 





















































array([ 


这 是 “练习 : 修改 对 齐 函 数 ” 的 答案 。 
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我 们 在 金字 塔 的 较 高 级 别 使 用 basin hopping 方法 ， 较 低级 别 则 使 用 Powell 方法 ， 因 为 
basin hopping 在 全 分 辩 率 图 像 上 运行 的 计算 开销 太 大 了 。 
def align(reference, target, cost=cost mse, nlevels=7, method='Powell'): 


pyramid_ref = gaussian pyramid(reference, levels=nlevels) 
pyramid_tgt = gaussian_pyramid(target, levels=nlevels) 





levels = range(nlevels, 0, -1) 
image_pairs = zip(pyramid ref, pyramid_ tgt) 


p = np.zeros(3) 


for n, (ref, tgt) in zip(levels, image pairs): 
p[1:] *= 2 
if method.upper() == 'BH': 
res = optimize.basinhopping(cost, p, 
minimizer_ kwargs={'args': (ref, tgt)}) 
if n <= 4: # 避免 在 低级 别 上 使 用 basin hopping 方 法 
method = 'Powell' 





else: 
res = optimize.minimize(cost, p, args=(ref, tgt), method='Powell') 
p = res.x 
# 输出 当前 级 别 ， 每 次 都 覆盖 上 一 次 的 输出 (就 像 进度 条 一 样 ) 
print(f'Level: {n}, Angle: {np.rad2deg(res.x[0]) :.3}，， 
f'Offset: ({res.x[1] * 2**n :.3}, {res.x[2] * 2**n :.3}), 
f'Cost: {res.fun :.3}', end='\r') 





























print('') # 对 齐 完成 后 开始 新 一 行 


return make_rigid_ transform(p) 
现在 试验 一 下 对 齐 函 数 。 


from skimage import util 





theta = 50 

rotated = transform.rotate(astronaut, theta) 

rotated = util.random noise(rotated, mode='gaussian', 
seed=0, mean=0, var=1le-3) 


tf = align(astronaut, rotated, nlevels=8, method='BH') 
corrected = transform.warp(rotated, tf, order=3) 


f, (ax0, ax1, ax2) = plt.subplots(1, 3) 

ax0 .imshow(astronaut) 

ax0.set_ title('Original') 

ax1.imshow(rotated) 

axl.set_ title('Rotated') 

ax2.imshow(corrected) 

ax2.set title('Registered') 

for ax in (ax0, ax1, ax2): 
ax.axis('off') 


Level: 1, Angle: -50.0, Offset: (-2.09e+02, 5.74e+02), Cost: 0.0385 
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配 准 后 的 














成 功 了 ! basin hopping 能 够 恢复 正确 的 对 齐 ， 即 使 在 minimize 函数 遇 到 困难 时 也 是 如 此 。 


A.19 答案: scikit-learn 库 
这 是 “练习 ， 流 数据 的 主 成 分 分 析 ” 的 答案 。 


首先 写 一 个 函数 来 训练 模型 。 这 个 函数 应 该 接受 一 个 样本 流 ， 并 输出 一 个 主 成 分 分 析 模 型 。 
这 个 模型 可 以 将 新 样本 从 初始 的 N 维 空间 投射 到 主 成 分 空间 ， 从 而 实现 新 样本 的 转换 。 


import toolz as tz 

from toolz import curried as c 
from sklearn import decomposition 
from sklearn import datasets 
import numpy as np 























def streaming_pca(samples, Nn_components=2, batch_size=100): 
ipca = decomposition.IncrementalPCA(n_components=n_components, 
batch_size=batch_size) 
tz.pipe(sampLes， # 一 维 数组 迭代 器 
c.partition(batch_size), # 元 组 的 迭代 器 
c.map(np.array)，# 二 维 数 组 迭代 器 
c.map(ipca.partial_fit), # 对 样本 中 的 每 个 元 素 执 行 partial_fit 
tz.last) # 通过 管道 吸入 数据 流 
return ipca 


现在 可 以 用 这 个 函数 训练 (或 拟 合 ) 一 个 主 成 分 分 析 模型 。 


reshape = tz.curry(np.reshape) 





def array_from txt(line, sep=',', dtype=np.float): 
return np.array(line.rstrip().split(sep), dtype=dtype) 


with open('data/iris.csv') as fin: 
pca_obj = tz.pipe(fin, c.map(array_from txt), streaming_pca) 
最 后 ， 可 以 通过 模型 的 transform 函数 对 原始 样本 进行 流 式 处 理 ， 并 将 处 理 结果 汇集 成 一 
个 行 和 列 分 别 为 n_samples 和 n_components 的 数据 矩阵 。 




















with open('data/iris.csv') as fin: 
components = tz.pipe(fin, 
c.map(array_from txt), 
c.map(reshape(newshape=(1, -1))), 
c.map(pca_obj.transform) ， 
np.vstack) 


print(components.shape) 
(150, 2) 
接着 绘制 出 这 些 成 分 。 


iris_ types = np.loadtxt('data/iris-target.csv') 
plt.scatter(*components.T, c=iris types, cmap='viridis'); 


你 可 以 验证 一 下 ， 这 种 方法 的 结果 与 标准 主 成 分 分 析 方 法 (基本 上 ) 相同 (比较 图 A-2 和 
图 A-3)。 





iris = np.loadtxt('data/iris.csv', delimiter=', 
components2 = decomposition.PCA(n_components=2).fit_transform(iris) 
plt.scatter(*components2.T, c=iris_ types, cmap='viridis'); 
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图 A-2: 用 流 式 主 成 分 分 析 计 算出 的 膏 尾 花 数 据 集 主 成 分 
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A-3: 用 标准 主 成 分 分 析 计 算出 的 欧 尾 花 数据 集 主 成 分 
当然 ， 主 要 的 区 别 在 于 流 式 主 成 分 分 析 可 以 扩展 到 特别 大 的 数据 集 。 


pr 1， 十 所 
A.20 答案: 在 管道 开始 位 置 添 加 一 个 步骤 
这 是 “练习 : 在 线 解压 ”的 答案 。 
可 以 将 原始 genome 代码 中 的 open 替换 为 一 个 柯 里 化 的 gzip.open 函数 。gzip 中 open 国 数 
的 默认 模式 是 rb (read bytes) ， 而 不 是 Python 内 置 函 数 open 的 rt (read text) ， 因 此 要 指 
定 这 个 参数 。 


import gzip 








gzopen = tz.curry(gzip.open) 


def genome gz(file_ pattern): 
"""Stream a genome, letter by letter, from a list of FASTA filenames.""" 
return tz.pipe(file pattern,glob，sorted, # 文件 名 
c.map(gzopen(mode='rt'))，# 行 
# 连接 所 有 文件 中 的 行 
tz.concat, 
# 去 掉 每 个 序列 的 标题 
c.filter(is_sequence), 
# 连接 所 有 行 中 的 字符 
tz.concat, 
# 去 掉 换 行 符 和 N 


c.filter(is nucleotide)) 
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可 以 用 压缩 的 果 蝇 基因 组 文件 测试 一 下 。 





dm = 'data/dm6.fa.gz' 


model = tz.pipe(dm, genome gz, c. 


take(10**7), markov) 


plot_model(model, labels='ACGTacgt') 





AO 


A 


| 


9 


nN 


OO 


rt 








0.35 
0.30 
0.25 
0.20 
0.15 
0.10 
0.05 
A C G T a € g t 








如 果 想 要 一 个 特别 的 genome 函数 ， 那 么 可 以 定制 一 个 open 函数 ， 根 据 文 件 名 或 使 用 试 错 





法 确定 一 个 文件 是 否 为 gzip 文件 。 

















同 理 ， 如 果 你 有 一 个 全 部 由 FASTA 文件 组 成 的 .tar.gz 文件 ， 那 么 可 以 使 用 Python 的 
tarfile 模块 代替 glob 来 分 别 读 取 每 个 文件 。 唯 一 需要 注意 的 是 ， 必 须 用 bytes.decode 国 





数 对 每 一 行进 行 解码 ， 因 为 tarfile 返 














回 的 行 是 字 季 ， 而 不 是 文本 。 
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封面 简介 
本 书 封面 上 的 动物 是 一 只 乐园 维 达 鸟 (学 名 Vidua paradisaea) ， 又 称 长 尾 维 达 鸟 。 这 种 体 
型 小 巧 、 类 似 麻 瞧 的 鸟 类 分 布 在 东非 ， 从 南 苏 丹 到 安哥拉 南部 的 地 区 。 


乐园 维 达 鸟 的 雄性 和 上 峻 性 通常 难以 分 辨 直到 时 殖 和 李 雄 性 长 出 繁殖 羽 才能 看 出 来 。 繁 殖 期 
的 雄性 头 部 呈 黑 色 ， 胸 部 呈 褐 色 ， 后 颈 羽 毛 为 亮 黄 色 ， 腹 部 为 白色 。 黑 色 尾 羽 长 且 宽 ， 长 
度 约 为 身体 的 3 倍 。 

乐园 维 达 鸟 是 绿 翅 班 腹 稚 的 梨 寄 生 者 。 雄 岛 可 以 模拟 雄性 斑 腹 鹤 的 叫 声 ， 因 为 它们 的 叫 声 
更 响亮 ， 所 以 绿 起 班 腹 管 的 养父 母 会 给 予 它们 更 多 关注 。 这 种 时 寄生 本 性 使 得 它们 很 难 被 
人 工 饲 养 ， 但 在 美国 和 其 他 一 些 国家 中 ， 雄 鸟 经 常 被 当成 宠物 贩卖 。 长 尾 维 达 鸟 被 评定 为 
无 危 物种 。 

O’Reilly 图 书 封面 上 的 很 多 动物 都 是 濒危 物种 ， 它 们 是 这 个 世界 的 至 宝 。 如 果 你 想 为 保护 


动物 贡献 一 份 力量 ， 请 访问 animals.oreilly.com。 











封面 图 片 来 自 JJ0odS Tllustrated Natural Fistory。 
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